1. DolphinScheduler简介
Apache DolphinScheduler provides a distributed and easy to expand visual workflow task scheduling open-source platform. It is suitable for enterprise-level scenarios. It provides a solution to visualize operation tasks, workflows, and the entire data processing procedures.
参考文档:
2. 安装Docker
参考文档《Docker入门篇》
3. 安装DS
参考文档:DolphinScheduler 3.1.2 - Docker Quick Start
1 | mkdir -p /data/ds |
暂时不要安装3.1.3,web ui会出现白屏。
4. 访问DS
http://192.168.56.101:12345/dolphinscheduler/ui
用户名:admin
密码:dolphinscheduler123
5. 使用DS
参考文档DolphinScheduler 3.1.2 - 快速上手
6. 添加MySQL数据源
参考文档:数据源配置
6.1. 添加jar驱动
添加MySQL数据源之前,需要先配置好MySQL驱动,否则会报错:
Faild to load driver class.com.class.cj.jdbc.Driver in either of HikariConfig class loader or Thread context classloader
1 | mkdir -p /data/ds/libs |
2、修改docker-compose.yml配置,添加jar包挂载
1 | volumes: |
api-server、alert-server、master-server、worker-server四个容器都需要挂载。
3、重建DS
1 | docker-compose --profile all down |
重建后,之前的数据还是存在的,因为我们没有删除volume数据。
6.2. 添加MySQL数据源
http://192.168.56.101:12345/dolphinscheduler/ui/datasource
页面操作,添加MySQL数据源即可。
7. 添加Spark数据源
7.1. 启动Spark thriftserver
启动Spark thriftserver
1 | cd /usr/local/spark/spark-3.3.1-bin-hadoop3-scala2.13/ |
7.2. 添加Spark数据源
页面操作,添加Spark数据源。
用户名可以随便填(建议填入spark),密码为空;数据库名填入default。