# 文本文件输入组件使用说明

# 组件说明

用于从各种文本文件类型中读取数据。

# 配置项说明

配置名称	数据类型	是否必须	默认值	描述
节点名称	String	是	-	当前创建的节点名称，由用户自定义且不可为空。命名可包含字母、数字、下划线。
是否从上一节点获取文件名	Boolen	否	false	可选择“HDFS”类型或“LOCAL”类型。
选择类型	String	是	-	可选择“HDFS”类型或“LOCAL”类型。
选择数据源	String	是	-	当前输入绑定的数据源名称，从下拉选项中列出的指定的关联类型(HDFS)的数据源进行选择。
文件目录	String	是	-	读取数据的文件/目录来源。
正则匹配	String	是	-	指定要用于选择上一个选项中指定的目录中文件的正则表达式。例如，您希望处理扩展名为 .txt 的所有文件则写为*.txt
正则排除	String	是	-	排除满足此正则表达式指定条件的所有文件（位于给定位置）。
文件类型	String	是	CSV	CSV
分隔符	String	是	;	在文本的单行中，一个或多个字符将被用来分隔字段，比较有代表性的是';',或者一个tab 制表符。特殊字符（例如 CHAR ASCII HEX01）可以用 $[value] 格式设置，例如 $[01] 或 $[6F，FF，00,1F]。
编码方式	String	是	UTF-8	指定文本文件编码方式。如果不设置就使用系统默认的编码方式。如果想用Unicode，可以指定UTF-8 或者UTF-16。
格式	String	是	DOS	可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是回车，DOS 中可以是回车或者换行。如果你选择混合模式，将不会验证。
压缩格式	String	是	CSV	如果你的文件是ZIP文件，就启用这个。注：此时归档文件中仅第一个文件被读取
本地日期格式	String	是	None	zh_CN
解析日期时是否严格要求	Boolean	否	false	如果你想严格的解析数据字段，可以禁用这个选项。如果启用的时候，则1月32日等日期将变为2月1日。
记录数量限制	Integer	否	0	设置读取记录的行数,代表下游节点接收到的最大数量,0 代表读取所有的。
头部行数	Integer	否	1	如果你的文本文件有头部行就使用这个。你可以指定头部行出现的行数。
尾部行数	Integer	否	1	如果你的文本文件有尾部行就使用这个。你可以指定尾部行出现的行数。
输出包含行数	Boolean	否	-	如果你想行数作为输出的一部分，可以启用这个。
行数字段名称	String	否	-	包含行数的字段名称。
文本限定符	String	否	"	一些字段能够被一对允许分割的字符来封闭；如文本限定符为",文本内容为"username;me";passeord345;data1 则解析的结果为username;me passeord345 data1
逃逸字符	String	否	-	逃逸字符也叫转义字符，如果你的数据中有逃逸字符，就指定逃逸字符（或者逃逸字符串）。如果\作为逃逸字符，文本’Not the nine o\’clock news.’(’作为封闭字符)，将被解析成Not the nine o’clock news.
添加文件名到结果	Boolean	否	-	如果你想文件名作为输出的一部分，可以启用这个。
内容字段	-	否	-	名称：设置要在输出流中显示的字段名称。类型：字段类型（String、Date、Number 等）。格式：控制输入数据的格式(整数、有小数位、日期格式等)。长度：对于Number：有效数的数量。对于String：字符的长度。对于Date：打印输出字符的长度（例如4 代表返回年份）。精度：对于Number：浮点数的数量。对于String,Date,Boolean：未使用。重复：Y/N:如果在当前行中对应的值为空，则重复最后一次不为空的值。