普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
应用集成
FAQ
  • ORC输出组件使用说明
  • 组件说明
  • 配置项说明

# ORC输出组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 输出文件至HDFS
    • 输出文件至LOCAL
    • 输出内容至HIVE

# 组件说明

该组件用于将数据输出成 ORC 格式,常用于输出到 Hive ORC 格式表。

该组件为大数据组件,部署Primeton DI时,需要配置 Hadoop 集群环境。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型 String 是 - 支持三种选项:
-HDFS:将 ORC 数据文件存储至大数据环境;
-LOCAL:将 ORC 数据文件存储至本地;
-DATASOURCE:将 ORC 数据存储至 Hive 数据库表。
文件/目录 String 是 - “选择类型”为“HDFS”时生效,用于配置目标文件/目录路径。
选择数据源 String 是 - “选择类型”为“HDFS”和“DATASOURCE”时生效,用于选择配置目数据源。
文件名称 String 是 - 指定输出的 ORC 文件名。
字段列表 - 是 - ORC 字段名:显示在 ORC 数据文件中的字段名称。
字段名称:上游节点传入的字段名。
ORC 类型:指定用于在 ORC 文件中存储数据的数据类型。
精度:指定数字中有效数字的总数(仅适用于 Decimal 类型)。缺省值为20。
范围:指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。
默认值:如果字段为空或空,请指定该字段的默认值。
是否分区字段:是否为分区字段。
是否可以为Null:指定字段是否可以包含空值。
覆盖已存在文件 Boolean 是 否 是:覆盖已经存在的 ORC 文件。只保留最后一次运行的数据,即:第一次是全量,如果后续是增量数据。选择“是”则每次会清空数据,仅保留最后一次同步的数据,没有历史数据。

否:不覆盖已经存在的 ORC 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。
压缩算法 String 是 - ORC 文件压缩格式,NONE, ZLIB, LZO, SNAPPY,默认:NONE。
stripe大小(MB) String 是 - 每个条带大小,默认:64MB。
压缩块大小(KB) String 是 - 每个压缩块中大小,默认:256KB。
索引步长 String 是 - 勾选“是否在写入时进行索引”时生效。stripe 中每个索引项所包含行数,默认:10000行,值为 0,不创建索引。
文件名包含日期 Boolean 是 不勾选 生成的文件名中包含日期。
文件名包含时间 Boolean 是 不勾选 生成的文件名中包含时间。
日期掩码 String 是 - 当勾选“指定日期掩码”后,选择配置日期格式,可以给 ORC 文件名加时间戳,如:yyyy-MM-dd。
是否根据行数分割文件 Boolean 是 - 根据指定行数对结果数据进行行分割输出。
行数配置 Integer 是 - 勾选“是否根据行数分割文件”时生效。默认值为 0。
定时刷新 Boolean 是 不启用 开启/关闭将缓冲区中的数据定时写到 ORC 文件。
刷新间隔(秒) Integer 是 - 开启“定时刷新”时生效,设置定时刷新时间间隔,单位为“秒”。

← MongoDB输出 PARQUET输出 →