# LocalFile Source组件使用说明
# 组件说明
LocalFile 连接器。用于从本地文件系统读取数据。
# 配置项说明
配置名称 | 数据类型 | 是否必填 | 默认值 | 描述 |
---|---|---|---|---|
节点名称 | String | 是 | - | 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
节点编码 | String | 是 | - | 当前创建的节点编码,以此标识此组件,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
文件路径 | String | 是 | - | 源文件路径。可以是完整路径,比如:/home/dws/infile/orderinfo.xls,也可以是不带具体文件名的路径,比如:/home/dws/infile/,然后通过"文件过滤正则表达式"进行过滤。 |
文件类型 | String | 是 | json | 支持:text、csv、parquet、orc、json、excel、xml 七种文件类型。 注意:选择 excel 文件时,请务必删除表头,只保留数据。 |
文件过滤正则表达式 | String | 否 | - | 过滤器模式,用于过滤文件。 |
跳过文件 | Int | 否 | 0 | 当选择文件类型为text/csv时,跳过文件前多少行。 |
sheet名称 | String | 否 | - | 当选择文件类型为excel时,选择sheet名称。 |
XML行标签 | String | 否 | - | 当选择文件类型为xml时,指定XML文件中数据行的标记名称。。 |
是否使用属性格式 | Boolean | 否 | 否 | 当选择文件类型为xml时,指定是否使用标记属性格式处理数据。 |
数据结构 | String | 是 | - | 获取的上游字段的信息。可以点击【获取字段】按钮自动获取全部字段名称及类型,也可以点击【增加字段】手工输入字段名称及类型。 |
读取列名 | String | 否 | - | 读取数据源的列,可以使用它来实现字段映射。 |
从文件路径解析分区键和值 | String | 否 | 是 | 控制是否从文件路径解析分区键和值。例如,如果从路径读取文件file://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26。 |
日期格式 | String | 否 | yyyy-MM-dd | 将字符串转换为日期,支持格式: yyyy-MM-dd yyyy.MM.dd yyyy/MM/dd |
时间格式 | String | 否 | HH:mm:ss | 将字符串转换为时间,支持格式: HH:mm:ss HH:mm:ss.SSS |
日期时间格式 | String | 否 | yyyy-MM-dd HH:mm:ss | 将字符串转换为日期时间,支持格式: yyyy-MM-dd HH:mm:ss yyyy.MM.dd HH:mm:ss yyyy/MM/dd HH:mm:ss yyyyMMddHHmmss 默认是 yyyy-MM-dd HH:mm:ss。 |
可选参数 | - | 否 | - | 其他参数,用户可以根据需求进行配置。 |