数据导入
前言
数据导入模块是IBI数据接入模式的一次新的探索,从原来完全需要用户准备好数据库、数据仓库,IBI作为只读的分析前端,到帮助用户做一些简易的数据写入工作, 从而达到归集不同数据源的数据到内建数据库(ODS、数据仓库),比如:用户可以定时导入多份Excel数据、不同业务系统数据库(ERP数据库、CRM数据库),做一些与聚合以供BI分析使用
- 让缺少数仓建设团队的小微企业也能轻松完成BI分析闭环工作

# 功能列表
- 轻量级ETL+数据仓库(MySQL/Clickhouse)解决方案
- 异构数据归集
- 导入数据字段选择、字段类型、字段注释可配置
- 支持多次导入字段增加、字段减少数据合并
- 全量与增量导入
- 数据按主键合并
- 定时同步
- 数据查看
- 同步表支持数据集图形化
- 同步日志查看

# 快速开始
IBI支持默认使用的缓存数据库为嵌入式微型数据库H2,H2在每次系统重启之后数据会重置,因此使用数据导入功能之前请更改系统配置文件修改缓存数据类型为MySQL或Clickhouse

# MySql存储配置
提示
老版本升级,配置文件中没有MySQL配置项,需要新增下面的配置到配置文件
aggregator.type=mysql
# Mysql Aggregator
aggregator.mysql.name=mysql-aggregator
aggregator.mysql.driver-class-name=com.mysql.jdbc.Driver
aggregator.mysql.url=jdbc:mysql://localhost:3306/dbname?characterEncoding=utf-8&serverTimezone=Asia/Shanghai
aggregator.mysql.username=xxx
aggregator.mysql.password=xxx
aggregator.mysql.initialSize=1
aggregator.mysql.max-active=10
aggregator.mysql.testWhileIdle=false
aggregator.mysql.maxWait=5000
2
3
4
5
6
7
8
9
10
11
12
# Clickhouse存储配置
提示
老版本升级,原配置文件中包含有Clickhouse的配置项,建议增加initialSize防止连接信息错误连接池无限重试 aggregator.ck.initialSize=1
aggregator.type=clickhouse
# Clickhouse Aggregator
aggregator.ck.name=clickhouse
aggregator.ck.driver-class-name=ru.yandex.clickhouse.ClickHouseDriver
aggregator.ck.url=jdbc:clickhouse://xxx:8123/dbname
aggregator.ck.username=xxx
aggregator.ck.password=xxx
aggregator.ck.initialSize=1
aggregator.ck.min-idle=1
aggregator.ck.max-active=5
aggregator.ck.testWhileIdle=false
aggregator.ck.maxWait=5000
2
3
4
5
6
7
8
9
10
11
12
13
从顶部菜单配置->数据导入进入功能模块(需授权), 操作界面大致划分为两个区域,查询配置区、任务配置区, 如下图所示:

# 编辑查询
查询编辑与数据集模板查询编辑一样,首先选择数据源,不同的数据源会有不同的查询输入项表单,该处的查询对应每次从外部加载的数据范围
- JDBC数据配置查询sql语句
- 文本数据源上传文本文件或者配置服务器上已有文件路径
详细说明请参考数据集模块各种数据源配置说明
# 配置字段
查询配置完成之后,点击加载数据列,获取查询对应的字段,任务配置区查看字段:
- 首次加载默认所有字段都为选中状态
- 后续加载如果查询配置项变动导致两次查询字段不一致(增加/减少),对于前后两次加载的字段中字原始段名一样的,优先保留原始配置
- 取消字段勾选,则不会加载该字段
- 修改字段名称输入项,可以更改字段名称(对应数据库中表字段,简易使用英文、拼音字段名)
- 字段类型配置修改入库之后字段类型,前面四个快捷修改按钮对应常用的数据类型
文本,数值整数,浮点型,日期类型, 下拉框选择所有可选字段类型 - 注释:对应数据库字段解释,配置了注释的字段,在数据集中可以被自动识别为字段别名
# 多次加载自动不一致
- 字段增多: 新查询配置如果比现有表字段多,会自动修改原始表数据结构增加字段,历史数据中新增字段为空
- 字段减少: 新查询配置如果比现有表字段少,直接按对应字段加载
# 全量与增量
# 全量加载
全量加载会清空当前表数据,新数据重新入库表
# 增量加载
- 在不配置数据合并主键的情况下, 新数据追加导入,
- 如果配置了合并主键,在导入新数据之前,会先删除原表中与新数据重复的数据,然后再加载新数据
提示
重新导入与追加导入对应全量加载与增量加载,每次查询配置与导入配置有变动时需要先保存配置,再执行导入操作

# 定时同步
您可以通过定时任务开关,开启定时同步任务,加载类型可以选全量同步与增量同步

# 数据查看
数据加载成功之后,可以在查看数据集栏预览数据

# 日志查看

# 使用导入数据建立数据集
在数据集管理页面,新建数据集,选择数据源为InnerDB(该数据源为内置数据源不需要新建)

自动进入图形化建模状态

注意
- 该状态下可见的表名为数据导入配置的文件名,非真实表名,表的可见状态与
数据导入资源可见一致 - 如果一个用户之前对导入表可见,之后由于权限调整对导入表不可见,只要该表还存在,则可以正常使用数据集