dolphinscheduler多个网卡问题解决

起因

有一天突然发现 dolphinscheduler 的一个 worker 运行任务时总是失败。但是从前端监控页面看到 worker 的数量并没有减少,master 和 worker 也没有明显的报错日志。

重启集群

一般来说,重启能解决 99% 的问题,既然没有发现任务异常日志,那就尝试着重启 dolphinscheduler 集群,看是否能解决这个问题。但遗憾的是,重启之后,这个 worker 还是运行不了任务。

发现问题

通过仔细比对 dolphinscheduler 配置的 worker ip,从前端监控页面看到出问题的那台 worker 的 ip 和配置的 ip 不一致。

由此猜测 worker 在启动时注册到 zk 的 ip 取错了。

解决问题

Github 上搜了下 issue,发现这个问题已经解决了,在 common.properties 中有这样一个配置:

network IP gets priority, default: inner outer
dolphin.scheduler.network.priority.strategy=default

意思大概是,优先获取内网 ip。所以上述问题应该是 worker 在注册到 zk 时默认取了内网 ip 导致的。所以我们只需要改成优先获取外网 ip 就可以了:

network IP gets priority, default: inner outer
dolphin.scheduler.network.priority.strategy=outer

但是我觉得如果能取自己配置的 ip 就更好了,还真的发现有这样一个配置:

dolphin.scheduler.network.ip=xxx

这样就可以使用自己指定的 ip 了。


往期推荐

如何正确使用 Trino 的资源组

统一SQL网关:Kyuubi 使用体验

Trino 动态Catalog 体验

如何在 Ipv6 环境中使用 Trino 的 Hive Catalog

请使用浏览器的分享功能分享到微信等