如何使用 Apache DolphinScheduler 调度执行 Flume 数据采集任务?

发布时间:2026/5/21 6:55:23

如何使用 Apache DolphinScheduler 调度执行 Flume 数据采集任务? 转载自天地风雷水火山泽目的因为我们的数仓数据源是Kafka离线数仓需要用Flume采集Kafka中的数据到HDFS中。在实际项目中我们不可能一直在Xshell中启动Flume任务一是因为项目的Flume任务很多二是一旦Xshell页面关闭Flume任务就会停止这样非常不方便因此必须在后台启动Flume任务。所以经过测试后我发现海豚调度器也可以启动Flume任务。海豚调度Flume任务配置一Flume在Linux中的路径二Flume任务文件在Linux中的位置以及任务文件名三在海豚中配置运行脚本#!/bin/bash source /etc/profile /usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties注意/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装根据自己安装路径进行调整四海豚任务配置好后就可以启动海豚任务五在HDFS对应文件夹中验证是否采集到数据可以看到Flume采集Kafka数据成功写入到HDFS中成功实现用Apache DolphinScheduler执行Flume任务的目的

相关新闻