# ORC输出组件使用说明
# 组件说明
该组件用于将数据输出成 ORC 格式,常用于输出到 Hive ORC 格式表。
该组件为大数据组件,部署Primeton DI时,需要配置 Hadoop 集群环境。
# 配置项说明
配置名称 | 数据类型 | 是否必须 | 默认值 | 描述 |
---|---|---|---|---|
节点名称 | String | 是 | - | 当前创建的节点名称,由用户自定义且不可为空。命名可包含字母、数字、下划线。 |
选择类型 | String | 是 | - | 支持三种选项: -HDFS:将 ORC 数据文件存储至大数据环境; -LOCAL:将 ORC 数据文件存储至本地; -DATASOURCE:将 ORC 数据存储至 Hive 数据库表。 |
文件/目录 | String | 是 | - | “选择类型”为“HDFS”时生效,用于配置目标文件/目录路径。 |
选择数据源 | String | 是 | - | “选择类型”为“HDFS”和“DATASOURCE”时生效,用于选择配置目数据源。 |
文件名称 | String | 是 | - | 指定输出的 ORC 文件名。 |
字段列表 | - | 是 | - | ORC 字段名:显示在 ORC 数据文件中的字段名称。 字段名称:上游节点传入的字段名。 ORC 类型:指定用于在 ORC 文件中存储数据的数据类型。 精度:指定数字中有效数字的总数(仅适用于 Decimal 类型)。缺省值为20。 范围:指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。 默认值:如果字段为空或空,请指定该字段的默认值。 是否分区字段:是否为分区字段。 是否可以为Null:指定字段是否可以包含空值。 |
覆盖已存在文件 | Boolean | 是 | 否 | 是:覆盖已经存在的 ORC 文件。只保留最后一次运行的数据,即:第一次是全量,如果后续是增量数据。选择“是”则每次会清空数据,仅保留最后一次同步的数据,没有历史数据。 否:不覆盖已经存在的 ORC 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。 |
压缩算法 | String | 是 | - | ORC 文件压缩格式,NONE, ZLIB, LZO, SNAPPY,默认:NONE。 |
stripe大小(MB) | String | 是 | - | 每个条带大小,默认:64MB。 |
压缩块大小(KB) | String | 是 | - | 每个压缩块中大小,默认:256KB。 |
索引步长 | String | 是 | - | 勾选“是否在写入时进行索引”时生效。stripe 中每个索引项所包含行数,默认:10000行,值为 0,不创建索引。 |
文件名包含日期 | Boolean | 是 | 不勾选 | 生成的文件名中包含日期。 |
文件名包含时间 | Boolean | 是 | 不勾选 | 生成的文件名中包含时间。 |
日期掩码 | String | 是 | - | 当勾选“指定日期掩码”后,选择配置日期格式,可以给 ORC 文件名加时间戳,如:yyyy-MM-dd。 |
是否根据行数分割文件 | Boolean | 是 | - | 根据指定行数对结果数据进行行分割输出。 |
行数配置 | Integer | 是 | - | 勾选“是否根据行数分割文件”时生效。默认值为 0。 |
定时刷新 | Boolean | 是 | 不启用 | 开启/关闭将缓冲区中的数据定时写到 ORC 文件。 |
刷新间隔(秒) | Integer | 是 | - | 开启“定时刷新”时生效,设置定时刷新时间间隔,单位为“秒”。 |