# LocalFile Source组件使用说明

# 组件说明

LocalFile Source 用于从本地文件系统读取数据的连接器，支持多种文件格式和丰富的数据处理特性。

支持的文件格式：

text：纯文本，可自定义分隔符
csv：逗号分隔值
json：需通过schema定义结构，文件必须是换行分隔的JSON对象，不支持JSON数组格式
parquet：列式存储
orc：列式存储
excel：需指定sheet_name
xml：需指定xml_row_tag
binary：任意二进制文件

# 配置项说明

配置名称	数据类型	是否必填	默认值	描述
节点名称	String	是	LocalFile	当前创建的节点名称，由用户自定义且不可为空。命名可包含字母、数字、下划线。确保唯一性。
节点编码	String	是	自动生成	当前创建的节点编码，以此标识此组件，由用户自定义且不可为空。命名可包含字母、数字、下划线。确保唯一性。
文件路径	String	是	-	源文件路径。可以是完整路径，比如：/home/dws/infile/orderinfo.xls，也可以是不带具体文件名的路径，比如：/home/dws/infile/，然后通过"文件过滤正则表达式"进行过滤。
文件类型	String	是	json	支持：text、csv、parquet、orc、json、excel、xml、binary 八种文件类型。注意：选择 excel 文件时，请务必删除表头，只保留数据。
文件过滤正则表达式	String	否	-	过滤器模式，用于过滤文件。
压缩算法	String	否	none	lzo 适用于 txt、json、csv； orc 和 parquet 会自动识别压缩类型，无需设置； none 为不需要压缩/解压缩。
跳过文件	Int	否	0	当选择文件类型为text/csv时，需要配置，用于跳过文件前多少行。
sheet名称	String	否	-	当选择文件类型为excel时，选择 sheet 名称。
excel读取引擎	String	否	POI	当选择文件类型为excel时，选择 excel 读取引擎名称。
XML行标签	String	否	-	当选择文件类型为xml时，指定XML文件中数据行的标记名称。
是否使用属性格式	Boolean	否	否	当选择文件类型为xml时，指定是否使用标记属性格式处理数据。
数据结构	String	是	-	获取的上游字段的信息。可以点击【获取字段】按钮自动获取全部字段名称及类型，也可以点击【增加字段】手工输入字段名称及类型。
读取列名	String	否	-	读取数据源的列，可以使用它来实现字段映射。
从文件路径解析分区键和值	String	否	是	控制是否从文件路径解析分区键和值。例如，如果从路径读取文件file://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26。
日期格式	String	否	yyyy-MM-dd	将字符串转换为日期，支持格式： yyyy-MM-dd yyyy.MM.dd yyyy/MM/dd
时间格式	String	否	HH:mm:ss	将字符串转换为时间，支持格式： HH:mm:ss HH:mm:ss.SSS
日期时间格式	String	否	yyyy-MM-dd HH:mm:ss	将字符串转换为日期时间，支持格式： yyyy-MM-dd HH:mm:ss yyyy.MM.dd HH:mm:ss yyyy/MM/dd HH:mm:ss yyyyMMddHHmmss 默认是 yyyy-MM-dd HH:mm:ss。
可选参数	-	否	-	其他参数，用户可以根据需求进行配置。

# 性能建议

大Excel文件：excel读取引擎选择「EasyExcel」，避免OOM。

按需读列：使用读取列名(read_columns)，减少数据传输。

文件过滤：优先使用文件后缀名(filename_extension)，正则表达式相对耗时。

# FAQ

Q1: LocalFile组件支持图片和视频的同步吗？

可以使用（binary）二进制文件格式读取和写入任何格式的文件，例如视频、图片等。

← Kafka MongoDB →