# 合并记录示例
本示例主要介绍合并记录示例场景开发,该场景实现了将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,会将旧数据和新数据按照指定的关键字匹配、比较、合并。主要步骤如下:
# 准备数据
准备两个 Excel 文件,例如:合并记录-输入A.xls、合并记录-输入B.xls ,可以右键下载示例文件。
# 新建批量作业
点击资源树节点上的【...】,选择弹出菜单【新建批量作业】。
填写作业名称、选择作业类型"离线转换"。
# 画布中拖拽图元
画布中分别拖拽两个"Excel输入"组件,"合并记录组件"。
# 配置"Excel输入"组件属性
配置第一个"Excel输入"组件的属性:点击"Excel输入"组件图元右键,点击【编辑】按钮,弹出"Excel输入"组件的弹窗,配置属性。
通过下拉框选择"文件类型",支持两种:HDFS、LOCAL。本示例以 LOCAL 为例, 文件存放在 /home/localfiles/合并记录-输入A.xls、/home/localfiles/合并记录-输入B.xls。
HDFS:文件统一存储在 HDFS 中。
LOCAL:文件存放在 DI Server 所在服务器的磁盘中。
配置第二个"Excel输入"组件的属性:点击"Excel输入"组件图元右键,点击【编辑】按钮,弹出"Excel输入"组件的弹窗,配置属性。
# 配置"合并记录"组件属性
旧数据来源:旧数据来源的步骤
新数据来源。新数据来源的步骤
标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种:
- identical:旧数据和新数据一样
- changed:数据发生了变化
- new:新数据中有而旧数据中没有的记录
- deleted:旧数据中有而新数据中没有的记录
关键字段:用于定位两个数据源中的同一条记录。
比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。
注意:
旧数据和新数据需要事先按照关键字段排序。
旧数据和新数据要有相同的字段名称。
# 配置"Excel输出"组件属性
按照界面向导配置属性参数,属性设置完毕请点击【确定】按钮。
# 通用配置
在通用配置中可以配置任务优先级、Worker 分组、命名参数、本地参数、超时告警。 修改属性后请务必点击【确定】按钮。
可以参考示例关系型表数据同步示例 中的"通用配置"说明。
# 保存草稿
如果所有组件属性都已设置完毕,点击【保存】按钮,可以看到保存过的历史草稿,并可以随意切换草稿。(草稿只保存最近 10 个)
可以参考示例关系型表数据同步示例 中的"保存草稿"说明。
# 运行
点击【运行】按钮,可以运行已经开发完毕的场景,在日志栏可以看运行日志及运行结果。
执行结果生成的文件合并记录新字段.xls,结果数据如下图所示:
# 提交版本
当草稿运行正常后,点击【提交】按钮可以将该版本提交到作业调度,每次修改提交都会生成新的版本,可以看到提交的历史版本,并可以随意切换版本。
提交后的版本,可以在作业调度中进行"定时"调度配置。
可以参考示例关系型表数据同步示例 中的"提交版本"说明。