普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
SDK开发指南
FAQ
  • ORC输出组件使用说明
  • 组件说明
  • 配置项说明

# ORC输出组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 输出文件至HDFS
    • 输出文件至LOCAL
    • 输出内容至HIVE

# 组件说明

该组件用于将数据输出成Orc格式,常用于输出到Hive Orc格式表。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型 String 是 - 可选择“HDFS”类型或“LOCAL”类型。
文件/目录 String 是 - 读取数据的文件/目录来源。
文件名称 String 是 - 输出文件文件名。
字段列表 - 是 - ORC字段名:ORC输出文件的字段名。字段名称:上游节点传入的字段名。ORC类型:数据类型。
覆盖已存在文件 Boolean 是 false 文件存在的情况下是否进行内容覆盖。
压缩算法 String 是 - orc文件压缩格式,NONE, ZLIB, SNAPPY, LZO, LZ4,默认:NONE。
stripe大小(MB) String 是 - 每个条带大小,默认:64MB。
压缩块大小(KB) String 是 - 每个压缩块中大小,默认:256kb。
索引步长 String 是 - stripe中每个索引项所包含行数,默认:10000行,值为0,不创建索引。
文件名包含日期 Boolean 是 false 生成的文件名中包含日期。
文件名包含时间 Boolean 是 false 生成的文件名中包含时间。
日期掩码 String 是 - 日期格式,如:yyyy-MM-dd。
根据行数分割文件 Boolean 是 - 根据指定行数对结果数据进行行分割输出。
定时刷新 Boolean 是 false 是否将缓冲区中的数据立即写出到文件。
刷新间隔 Integer 是 - 刷新间隔。

← MongoDB输出 PARQUET输出 →