# 文本文件输入组件使用说明
# 组件说明
用于从各种文本文件类型中读取数据。
# 配置项说明
配置名称 | 数据类型 | 是否必须 | 默认值 | 描述 |
---|---|---|---|---|
节点名称 | String | 是 | - | 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
是否从上一节点获取文件名 | Boolen | 否 | false | 可选择“HDFS”类型或“LOCAL”类型。 |
选择类型 | String | 是 | - | 可选择“HDFS”类型或“LOCAL”类型。 |
选择数据源 | String | 是 | - | 当前输入绑定的数据源名称,从下拉选项中列出的指定的关联类型(HDFS)的数据源进行选择。 |
文件目录 | String | 是 | - | 读取数据的文件/目录来源。 |
正则匹配 | String | 是 | - | 指定要用于选择上一个选项中指定的目录中文件的正则表达式。例如,您希望处理扩展名为 .txt 的所有文件则写为*.txt |
正则排除 | String | 是 | - | 排除满足此正则表达式指定条件的所有文件(位于给定位置)。 |
文件类型 | String | 是 | CSV | CSV |
分隔符 | String | 是 | ; | 在文本的单行中,一个或多个字符将被用来分隔字段,比较有代表性的是';',或者一个tab 制表符。特殊字符(例如 CHAR ASCII HEX01)可以用 $[value] 格式设置,例如 $[01] 或 $[6F,FF,00,1F]。 |
编码方式 | String | 是 | UTF-8 | 指定文本文件编码方式。如果不设置就使用系统默认的编码方式。如果想用Unicode,可以指定UTF-8 或者UTF-16。 |
格式 | String | 是 | DOS | 可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是回车,DOS 中可以是回车或者换行。如果你选择混合模式,将不会验证。 |
压缩格式 | String | 是 | CSV | 如果你的文件是ZIP文件,就启用这个。注:此时归档文件中仅第一个文件被读取 |
本地日期格式 | String | 是 | None | zh_CN |
解析日期时是否严格要求 | Boolean | 否 | false | 如果你想严格的解析数据字段,可以禁用这个选项。如果启用的时候,则1月32日等日期将变为2月1日。 |
记录数量限制 | Integer | 否 | 0 | 设置读取记录的行数,代表下游节点接收到的最大数量,0 代表读取所有的。 |
头部行数 | Integer | 否 | 1 | 如果你的文本文件有头部行就使用这个。你可以指定头部行出现的行数。 |
尾部行数 | Integer | 否 | 1 | 如果你的文本文件有尾部行就使用这个。你可以指定尾部行出现的行数。 |
输出包含行数 | Boolean | 否 | - | 如果你想行数作为输出的一部分,可以启用这个。 |
行数字段名称 | String | 否 | - | 包含行数的字段名称。 |
文本限定符 | String | 否 | " | 一些字段能够被一对允许分割的字符来封闭;如文本限定符为",文本内容为"username;me";passeord345;data1 则解析的结果为username;me passeord345 data1 |
逃逸字符 | String | 否 | - | 逃逸字符也叫转义字符,如果你的数据中有逃逸字符,就指定逃逸字符(或者逃逸字符串)。如果\作为逃逸字符,文本’Not the nine o\’clock news.’(’作为封闭字符),将被解析成Not the nine o’clock news. |
添加文件名到结果 | Boolean | 否 | - | 如果你想文件名作为输出的一部分,可以启用这个。 |
内容字段 | - | 否 | - | 名称: 设置要在输出流中显示的字段名称。类型:字段类型(String、Date、Number 等)。格式:控制输入数据的格式(整数、有小数位、日期格式等)。长度:对于Number:有效数的数量。对于String:字符的长度。对于Date:打印输出字符的长度(例如4 代表返回年份)。精度:对于Number:浮点数的数量。对于String,Date,Boolean:未使用。重复:Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值。 |