版本：Next

ObsFile

Obs 文件源连接器

支持这些引擎

Spark
Flink
Seatunnel Zeta

从华为云 OBS 文件系统读取数据。

如果您使用 spark/flink，为了使用此连接器，您必须确保您的 spark/flink 集群已集成 hadoop。测试的 hadoop 版本是 2.x。

如果您使用 SeaTunnel 引擎，它会在您下载和安装 SeaTunnel 引擎时自动集成 hadoop jar。您可以检查 ${SEATUNNEL_HOME}/lib 下的 jar 包来确认这一点。

我们为了支持更多文件类型做了一些权衡，所以我们使用 HDFS 协议来内部访问 OBS，此连接器需要一些 hadoop 依赖项。它仅支持 hadoop 版本 2.9.X+。

请下载对应 'Maven' 的支持列表，并将其复制到 '$SEATUNNEL_HOME/plugins/jdbc/lib/' 工作目录。
并将所有 jar 复制到 $SEATUNNEL_HOME/lib/

参数名	类型	必须	默认值	描述
path	string	是	-	目标目录路径
file_format_type	string	是	-	文件类型
bucket	string	是	-	OBS 文件系统的桶地址，例如：`obs://obs-bucket-name`
access_key	string	是	-	OBS 文件系统的访问密钥
access_secret	string	是	-	OBS 文件系统的访问密钥
endpoint	string	是	-	OBS 文件系统的端点
read_columns	list	否	-	数据源的读取列列表
delimiter	string	否	\001	字段分隔符
row_delimiter	string	否	\n	行分隔符
parse_partition_from_path	boolean	否	true	控制是否从文件路径解析分区键和值
skip_header_row_number	long	否	0	跳过前几行，但仅适用于 txt 和 csv。
date_format	string	否	yyyy-MM-dd	日期类型格式
datetime_format	string	否	yyyy-MM-dd HH:mm:ss	日期时间类型格式
time_format	string	否	HH:mm:ss	时间类型格式
quote_char	string	否	"	用于包裹 CSV 字段的单字符，可保证包含逗号、换行符或引号的字段被正确解析。
escape_char	string	否	-	用于在 CSV 字段内转义引号或其他特殊字符，使其不会结束字段。
recursive_file_scan	boolean	否	true	是否递归扫描子目录。如果设置为 `false`，将忽略子目录，仅扫描指定路径下的文件。
sort_files_by_modification_time	boolean	否	false	是否按修改时间降序排序文件。启用此选项后，在读取不断演化的 schema 时可确保 schema 推断使用最新的文件。

文件类型，支持以下文件类型：

text csv parquet orc json excel markdown

如果您将文件类型指定为 markdown，SeaTunnel 可以解析 markdown 文件并提取结构化数据。 markdown 解析器提取各种元素，包括标题、段落、列表、代码块、表格等。每个元素都转换为具有以下架构的行：

当 markdown_rag_metadata_enabled 设置为 true 时，SeaTunnel 会在 child_ids 之后追加以下 RAG 元数据字段：

该选项默认值为 false，因此只有显式启用后才会改变原始 Markdown schema。

注意：Markdown 格式仅支持读取，不支持写入。

是否按修改时间降序排序文件。默认值为 false。

启用后，文件将按修改时间排序（最新的在前）。适用于以下场景：