普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
SDK开发指南
FAQ
  • PARQUET输出组件使用说明
  • 组件说明
  • 配置项说明

# PARQUET输出组件使用说明

  • 组件说明
  • 配置项说明
  • 使用示例
    • 输出文件至HDFS
    • 输出文件至LOCAL
    • 输出内容至HIVE

# 组件说明

该组件用于将数据输出成Parquet格式。

# 配置项说明

配置名称 数据类型 是否必须 默认值 描述
节点名称 String 是 - 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型 String 是 - 可选择“HDFS”类型或“LOCAL”类型。
文件/目录 String 是 - 读取数据的文件/目录来源。
文件名称 String 是 - 输出文件文件名。
字段列表 - 是 - Parquet字段名:显示在Parquet数据文件中的字段名称。字段名称:指定PDI字段的名称。Parquet类型:指定用于在Parquet文件中存储数据的数据类型。精度:指定数字中有效数字的总数(仅适用于Decimal Parquet类型)。缺省值为20。范围:指定小数点后的位数(仅适用于decimal Parquet类型)。缺省值为10。默认值:如果字段为空或空,请指定该字段的默认值。是否可以为null:指定字段是否可以包含空值。
覆盖已存在文件 Boolean 是 false 文件存在的情况下是否进行内容覆盖。
压缩算法 String 是 None 指定用于压缩Parquet输出文件的编解码器。
版本 String 是 Parquet1.0 指定要使用的Parquet版本
文件扩展名 String 是 parquet 选择输出文件的扩展名。缺省值为parquet。
行组大小(MB) String 是 0 指定行的组大小。缺省值为 0。
页大小(KB) String 是 0 指定数据的页面大小。
启用字典编码 Boolean 是 false 指定字典编码,它构建列中遇到的值的字典。列的数据页之前,首先写入字典页。请注意,如果字典的大小大于Page大小(无论是大小还是不同值的数量),则编码方法将恢复为普通编码类型。
字段大小(KB) String 是 - 使用字典编码时指定页面大小。默认值为 1024。
文件名包含日期 Boolean 是 false 生成的文件名中包含日期。
文件名包含时间 Boolean 是 false 生成的文件名中包含时间。
日期掩码 String 是 - 日期格式,如:yyyy-MM-dd。
根据行数分割文件 Boolean 是 - 根据指定行数对结果数据进行行分割输出。
定时刷新 Boolean 是 false 是否将缓冲区中的数据立即写出到文件。
刷新间隔 Integer 是 - 刷新间隔。

← ORC输出 ArgoDB输出 →