普元数据开发平台 普元数据开发平台
产品介绍
安装部署
快速入门
操作指南
应用集成
运维指南
  • Spark 程序

# Spark 程序

Spark 程序用于执行 Spark 应用。

提示:

执行SPARK程序前,需要在${dolphinscheduler安装目录}/bin/env/dolphinscheduler_env.sh文件中,修改SPARK_HOME指向Spark服务在服务器中的路径。如export SPARK_HOME1=${SPARK_HOME1:-/home/spark/spark-2.4.0-bin-hadoop2.6}。

配置项说明:

Spark 程序配置项可分为 6 大类:基础环境、程序本体、资源分配、程序参数、高级配置、运行控制,核心是「基础环境 + 程序本体 + 资源分配」。

1. 基础信息配置(必选)

这类配置用于指定 Spark 程序运行的基础环境,是任务能执行的前提,决定「程序在哪里跑、用哪个版本的 Spark」。

配置项 默认值 描述
程序类型 JAVA 支持 Java、Scala、Python 和 SQL 四种语言。
Spark 版本 Spark1 指定使用的 Spark 版本(匹配集群实际版本,避免兼容性问题),支持 Spark1 和 Spark2。
任务名称 - Spark 程序的名称。
部署方式 local Spark 作业的部署模式。
(1) spark submit 支持 yarn-clusetr、yarn-client 和 local 三种模式。
(2) spark sql 支持 yarn-client 和 local 两种模式。

2. 程序配置(必选)

这类配置指向「要运行的 Spark 程序本身」,决定「跑哪个程序」。

配置项 默认值 描述
主函数的 Class - Spark 程序的入口类 Main class 的全路径。
主程序包 - 执行 Spark 程序的 jar 包(通过项目配置》文件管理上传)。
SQL脚本 - 当「程序类型」为 SQL 时,需要定义 Spark SQL 语句。

3. 资源配置(核心)

这类配置决定 Spark 作业的资源占用,直接影响运行效率和集群资源利用率,是性能调优的关键,需根据作业数据量和集群资源合理设置。

配置项 默认值 描述
Driver 核心数 1 Driver 进程占用的 CPU 核心数(YARN 模式生效)。
Driver 内存数 512M Driver 进程的内存大小(Driver 是作业的总控节点)。
Executor 数量 1 Executor 的总个数(决定并行度)。
Executor 内存数 2G 每个 Executor 进程的内存大小(Executor 是实际计算节点)。
Executor 核心数 2 每个 Executor 占用的 CPU 核心数。

4. 资源选择(可选)

这类配置用于选择 Spark 程序依赖的外部 Jar 包。

配置项 默认值 描述
资源 - 程序依赖的外部 Jar 包(多个用逗号分隔),如果其他参数中引用了资源文件,需要在资源中选择指定。

5. 程序参数配置(可选)

这类配置是传递给 Spark 主类 / 脚本的业务参数,决定「程序怎么跑(业务逻辑层面)」。

配置项 默认值 描述
主程序参数 - Spark 主类的入参(多个参数用空格分隔),支持自定义参数变量的替换。
选项参数 - 传递给 spark-submit 的额外配置(--conf 开头),支持 --jar、--files、--archives、--conf 格式。

6. 运行控制配置(可选)

这类配置决定 Spark 任务在 DolphinScheduler 内的运行规则,属于调度层面的配置。在「通用配置」中进行配置。

配置项 默认值 描述
任务优先级 MEDIUM worker 线程数不足时,根据优先级从高到低依次执行,优先级一样时根据先进先出原则执行。
Worker 分组 default 任务分配给 worker 组的机器执行,选择 Default,会随机选择一台 worker 机器执行。
任务组 - 用于控制任务实例并发,选择项目中已经定义好的任务组。
任务组优先级 0 任务在任务组内运行的优先级,数字越大优先级越高。
环境名称 - 运行程序时指定的虚拟环境。
本地参数 - 是程序局部的用户自定义参数,会替换程序中以 ${变量} 的内容。
失败重试次数 0 任务失败后的重试次数,单位:次。
失败重试间隔 1 多次重试之间的等待时间,单位:分钟。
超时告警 关闭 勾选超时告警、超时失败,当任务超过”超时时长”后,会发送告警邮件并且任务执行失败。

← Procedure程序 Flink程序 →