普元数据集成平台 普元数据集成平台
产品介绍
安装部署
快速入门
操作指南
FAQ
  • 文本文件输入组件使用说明
  • 组件说明
  • 配置项说明

# 文本文件输入组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 从HDFS获取文件
    • 从LOCAL获取文件
    • 从上一节点获取文件名

# 组件说明

用于从各种文本文件类型中读取数据。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
是否从上一节点获取文件名 Boolen 否 false 可选择“HDFS”类型或“LOCAL”类型。
选择类型 String 是 - 可选择“HDFS”类型或“LOCAL”类型。
选择数据源 String 是 - 当前输入绑定的数据源名称,从下拉选项中列出的指定的关联类型(HDFS)的数据源进行选择。
文件目录 String 是 - 读取数据的文件/目录来源。
正则匹配 String 是 - 指定要用于选择上一个选项中指定的目录中文件的正则表达式。例如,您希望处理扩展名为 .txt 的所有文件则写为*.txt
正则排除 String 是 - 排除满足此正则表达式指定条件的所有文件(位于给定位置)。
文件类型 String 是 CSV CSV
分隔符 String 是 ; 在文本的单行中,一个或多个字符将被用来分隔字段,比较有代表性的是';',或者一个tab 制表符。特殊字符(例如 CHAR ASCII HEX01)可以用 $[value] 格式设置,例如 $[01] 或 $[6F,FF,00,1F]。
编码方式 String 是 UTF-8 指定文本文件编码方式。如果不设置就使用系统默认的编码方式。如果想用Unicode,可以指定UTF-8 或者UTF-16。
格式 String 是 DOS 可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是回车,DOS 中可以是回车或者换行。如果你选择混合模式,将不会验证。
压缩格式 String 是 CSV 如果你的文件是ZIP文件,就启用这个。注:此时归档文件中仅第一个文件被读取
本地日期格式 String 是 None zh_CN
解析日期时是否严格要求 Boolean 否 false 如果你想严格的解析数据字段,可以禁用这个选项。如果启用的时候,则1月32日等日期将变为2月1日。
记录数量限制 Integer 否 0 设置读取记录的行数,代表下游节点接收到的最大数量,0 代表读取所有的。
头部行数 Integer 否 1 如果你的文本文件有头部行就使用这个。你可以指定头部行出现的行数。
尾部行数 Integer 否 1 如果你的文本文件有尾部行就使用这个。你可以指定尾部行出现的行数。
输出包含行数 Boolean 否 - 如果你想行数作为输出的一部分,可以启用这个。
行数字段名称 String 否 - 包含行数的字段名称。
文本限定符 String 否 " 一些字段能够被一对允许分割的字符来封闭;如文本限定符为",文本内容为"username;me";passeord345;data1 则解析的结果为username;me passeord345 data1
逃逸字符 String 否 - 逃逸字符也叫转义字符,如果你的数据中有逃逸字符,就指定逃逸字符(或者逃逸字符串)。如果\作为逃逸字符,文本’Not the nine o\’clock news.’(’作为封闭字符),将被解析成Not the nine o’clock news.
添加文件名到结果 Boolean 否 - 如果你想文件名作为输出的一部分,可以启用这个。
内容字段 - 否 - 名称: 设置要在输出流中显示的字段名称。类型:字段类型(String、Date、Number 等)。格式:控制输入数据的格式(整数、有小数位、日期格式等)。长度:对于Number:有效数的数量。对于String:字符的长度。对于Date:打印输出字符的长度(例如4 代表返回年份)。精度:对于Number:浮点数的数量。对于String,Date,Boolean:未使用。重复:Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值。

← Hbase输入 CSV文件输入 →