# 实时组件
本章节详细说明实时作业组件的功能及属性,具体有如下分类:
DWS 实时作业底层基于 SeaTunnel,是一个非常易于使用、超高性能的分布式数据集成平台,支持海量数据的实时同步。
SeaTunnel专注于数据集成和数据同步,主要用于解决数据集成领域的常见问题:
各种数据源:有数百种常用的数据源版本不兼容。随着新技术的出现,越来越多的数据源出现了。用户很难找到一种能够完全快速支持这些数据源的工具。 复杂的同步场景:数据同步需要支持离线全同步、离线增量同步、CDC、实时同步、全数据库同步等多种同步场景。
资源需求高:现有的数据集成和数据同步工具往往需要大量的计算资源或JDBC连接资源来完成海量小表的实时同步。这增加了企业的负担。
缺乏质量和监测:数据集成和同步过程经常会出现数据丢失或重复。同步过程缺乏监控,无法直观地了解任务过程中数据的真实情况。
复杂的技术堆栈:企业使用的技术组件不同,用户需要为不同的组件开发相应的同步程序来完成数据集成。
管理和维护难度:受限于不同的底层技术组件(Flink/Spark),离线同步和实时同步往往需要单独开发和管理,这增加了管理和维护的难度。
功能特点:
提供了丰富且可扩展的连接器:SeaTunnel 提供了一个不依赖于特定执行引擎的连接器API。基于此 API 开发的连接器(Source、Transform、Sink)可以在许多不同的引擎上运行,如目前支持的SeaTunnel Engine、Flink和Spark。
连接器插件:插件设计允许用户轻松开发自己的连接器,并将其集成到SeaTunnel项目中。目前,SeaTunnel支持100多个连接器,而且数量还在激增。
批量流集成:基于 SeaTunnel 连接器 API 开发的连接器,完美兼容离线同步、实时同步、全同步、增量同步等场景。它们大大降低了管理数据集成任务的难度。
多引擎支持:默认情况下,SeaTunnel 使用SeaTunnel引擎进行数据同步。SeaTunnel 还支持使用 Flink 或 Spark 作为连接器的执行引擎,以适应企业现有的技术组件。SeaTunnel支持多种版本的Spark和Flink。
JDBC复用,数据库日志多表解析:SeaTunnel 支持多表或全数据库同步,解决了 JDBC 连接过多的问题;并支持多表或全数据库日志读取和解析,解决了CDC多表同步场景处理日志重复读取和解析问题的需要。
高吞吐量和低延迟:SeaTunnel 支持并行读写,提供稳定可靠的高吞吐量和高延迟数据同步功能。
完美的实时监控:SeaTunnel 支持数据同步过程中每一步的详细监控信息,让用户轻松了解同步任务读取和写入的数据数量、数据大小、QPS 等信息。