# PARQUET输出组件使用说明
# 组件说明
该组件用于将数据输出成Parquet格式。
# 配置项说明
配置名称 | 数据类型 | 是否必须 | 默认值 | 描述 |
---|---|---|---|---|
节点名称 | String | 是 | - | 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
选择类型 | String | 是 | - | 可选择“HDFS”类型或“LOCAL”类型。 |
文件/目录 | String | 是 | - | 读取数据的文件/目录来源。 |
文件名称 | String | 是 | - | 输出文件文件名。 |
字段列表 | - | 是 | - | Parquet字段名:显示在Parquet数据文件中的字段名称。字段名称:指定PDI字段的名称。Parquet类型:指定用于在Parquet文件中存储数据的数据类型。精度:指定数字中有效数字的总数(仅适用于Decimal Parquet类型)。缺省值为20。范围:指定小数点后的位数(仅适用于decimal Parquet类型)。缺省值为10。默认值:如果字段为空或空,请指定该字段的默认值。是否可以为null:指定字段是否可以包含空值。 |
覆盖已存在文件 | Boolean | 是 | false | 文件存在的情况下是否进行内容覆盖。 |
压缩算法 | String | 是 | None | 指定用于压缩Parquet输出文件的编解码器。 |
版本 | String | 是 | Parquet1.0 | 指定要使用的Parquet版本 |
文件扩展名 | String | 是 | parquet | 选择输出文件的扩展名。缺省值为parquet。 |
行组大小(MB) | String | 是 | 0 | 指定行的组大小。缺省值为 0。 |
页大小(KB) | String | 是 | 0 | 指定数据的页面大小。 |
启用字典编码 | Boolean | 是 | false | 指定字典编码,它构建列中遇到的值的字典。列的数据页之前,首先写入字典页。请注意,如果字典的大小大于Page大小(无论是大小还是不同值的数量),则编码方法将恢复为普通编码类型。 |
字段大小(KB) | String | 是 | - | 使用字典编码时指定页面大小。默认值为 1024。 |
文件名包含日期 | Boolean | 是 | false | 生成的文件名中包含日期。 |
文件名包含时间 | Boolean | 是 | false | 生成的文件名中包含时间。 |
日期掩码 | String | 是 | - | 日期格式,如:yyyy-MM-dd。 |
根据行数分割文件 | Boolean | 是 | - | 根据指定行数对结果数据进行行分割输出。 |
定时刷新 | Boolean | 是 | false | 是否将缓冲区中的数据立即写出到文件。 |
刷新间隔 | Integer | 是 | - | 刷新间隔。 |