普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
应用集成
运维指南
  • LocalFile Source组件使用说明
  • 组件说明
  • 配置项说明
  • 性能建议
  • FAQ

# LocalFile Source组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 读取文件数据写入Kafka
  • FAQ

# 组件说明

LocalFile Source 用于从本地文件系统读取数据的连接器,支持多种文件格式和丰富的数据处理特性。

支持的文件格式:

  • text:纯文本,可自定义分隔符
  • csv:逗号分隔值
  • json:需通过schema定义结构,文件必须是换行分隔的JSON对象,不支持JSON数组格式
  • parquet:列式存储
  • orc:列式存储
  • excel:需指定sheet_name
  • xml:需指定xml_row_tag
  • binary:任意二进制文件

# 配置项说明

配置名称 数据类型 是否必填 默认值 描述
节点名称 String 是 LocalFile 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。确保唯一性。
节点编码 String 是 自动生成 当前创建的节点编码,以此标识此组件,由用户自定义且不可为空。命名可包含字母、数字、下划线。确保唯一性。
文件路径 String 是 - 源文件路径。可以是完整路径,比如:/home/dws/infile/orderinfo.xls,也可以是不带具体文件名的路径,比如:/home/dws/infile/,然后通过"文件过滤正则表达式"进行过滤。
文件类型 String 是 json 支持:text、csv、parquet、orc、json、excel、xml、binary 八种文件类型。
注意:选择 excel 文件时,请务必删除表头,只保留数据。
文件过滤正则表达式 String 否 - 过滤器模式,用于过滤文件。
压缩算法 String 否 none lzo 适用于 txt、json、csv;
orc 和 parquet 会自动识别压缩类型,无需设置;
none 为不需要压缩/解压缩。
跳过文件 Int 否 0 当选择文件类型为text/csv时,需要配置,用于跳过文件前多少行。
sheet名称 String 否 - 当选择文件类型为excel时,选择 sheet 名称。
excel读取引擎 String 否 POI 当选择文件类型为excel时,选择 excel 读取引擎名称。
XML行标签 String 否 - 当选择文件类型为xml时,指定XML文件中数据行的标记名称。
是否使用属性格式 Boolean 否 否 当选择文件类型为xml时,指定是否使用标记属性格式处理数据。
数据结构 String 是 - 获取的上游字段的信息。可以点击【获取字段】按钮自动获取全部字段名称及类型,也可以点击【增加字段】手工输入字段名称及类型。
读取列名 String 否 - 读取数据源的列,可以使用它来实现字段映射。
从文件路径解析分区键和值 String 否 是 控制是否从文件路径解析分区键和值。例如,如果从路径读取文件file://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26。
日期格式 String 否 yyyy-MM-dd 将字符串转换为日期,支持格式:
yyyy-MM-dd
yyyy.MM.dd
yyyy/MM/dd
时间格式 String 否 HH:mm:ss 将字符串转换为时间,支持格式:
HH:mm:ss
HH:mm:ss.SSS
日期时间格式 String 否 yyyy-MM-dd HH:mm:ss 将字符串转换为日期时间,支持格式:
yyyy-MM-dd HH:mm:ss
yyyy.MM.dd HH:mm:ss
yyyy/MM/dd HH:mm:ss
yyyyMMddHHmmss
默认是 yyyy-MM-dd HH:mm:ss。
可选参数 - 否 - 其他参数,用户可以根据需求进行配置。

# 性能建议

大Excel文件:excel读取引擎选择「EasyExcel」,避免OOM。

按需读列:使用读取列名(read_columns),减少数据传输。

文件过滤:优先使用文件后缀名(filename_extension),正则表达式相对耗时。

# FAQ

Q1: LocalFile组件支持图片和视频的同步吗?

可以使用(binary)二进制文件格式读取和写入任何格式的文件,例如视频、图片等。

← Kafka MongoDB →