# ORC输出组件使用说明

# 组件说明

该组件用于将数据输出成 ORC 格式，常用于输出到 Hive ORC 格式表。

该组件为大数据组件，部署Primeton DI时，需要配置 Hadoop 集群环境。

# 配置项说明

配置名称	数据类型	是否必须	默认值	描述
节点名称	String	是	-	当前创建的节点名称，由用户自定义且不可为空。命名可包含字母、数字、下划线。
选择类型	String	是	-	支持三种选项： -HDFS：将 ORC 数据文件存储至大数据环境； -LOCAL：将 ORC 数据文件存储至本地； -DATASOURCE：将 ORC 数据存储至 Hive 数据库表。
文件/目录	String	是	-	“选择类型”为“HDFS”时生效，用于配置目标文件/目录路径。
选择数据源	String	是	-	“选择类型”为“HDFS”和“DATASOURCE”时生效，用于选择配置目数据源。
文件名称	String	是	-	指定输出的 ORC 文件名。
字段列表	-	是	-	ORC 字段名：显示在 ORC 数据文件中的字段名称。字段名称：上游节点传入的字段名。 ORC 类型：指定用于在 ORC 文件中存储数据的数据类型。精度：指定数字中有效数字的总数(仅适用于 Decimal 类型)。缺省值为20。范围：指定小数点后的位数(仅适用于 Decimal 类型)。缺省值为10。默认值：如果字段为空或空，请指定该字段的默认值。是否分区字段：是否为分区字段。是否可以为Null：指定字段是否可以包含空值。
覆盖已存在文件	Boolean	是	否	是：覆盖已经存在的 ORC 文件。只保留最后一次运行的数据，即：第一次是全量，如果后续是增量数据。选择“是”则每次会清空数据，仅保留最后一次同步的数据，没有历史数据。否：不覆盖已经存在的 ORC 文件。运行结果会抛出异常 java.nio.file.FileAlreadyExistsException。
压缩算法	String	是	-	ORC 文件压缩格式，NONE, ZLIB, LZO, SNAPPY，默认：NONE。
stripe大小（MB）	String	是	-	每个条带大小，默认：64MB。
压缩块大小（KB）	String	是	-	每个压缩块中大小，默认：256KB。
索引步长	String	是	-	勾选“是否在写入时进行索引”时生效。stripe 中每个索引项所包含行数，默认：10000行，值为 0，不创建索引。
文件名包含日期	Boolean	是	不勾选	生成的文件名中包含日期。
文件名包含时间	Boolean	是	不勾选	生成的文件名中包含时间。
日期掩码	String	是	-	当勾选“指定日期掩码”后，选择配置日期格式，可以给 ORC 文件名加时间戳，如：yyyy-MM-dd。
是否根据行数分割文件	Boolean	是	-	根据指定行数对结果数据进行行分割输出。
行数配置	Integer	是	-	勾选“是否根据行数分割文件”时生效。默认值为 0。
定时刷新	Boolean	是	不启用	开启/关闭将缓冲区中的数据定时写到 ORC 文件。
刷新间隔（秒）	Integer	是	-	开启“定时刷新”时生效，设置定时刷新时间间隔，单位为“秒”。

← MongoDB输出 PARQUET输出 →