2024-03-07 14:45:03 +08:00
2024-03-06 17:20:07 +08:00
2024-03-07 14:45:03 +08:00
2024-03-07 14:45:03 +08:00
2024-03-06 14:02:44 +08:00

Hudi Service

围绕Hudi同步和压缩流程建立了一整套的工具和流程。

部署

由于部份配置需要在源码增删,无法通过配置文件修改,如果部署新集群建议对master建立分支进行操作避免配置混淆

配置准备

主机规划

通常来说,应用部署需要逻辑上规划有

  • 一台接口机用于操作脚本、存放jar包等。
  • 一台组件机;用于部署应用配套的外部组件。
  • 剩下的作为应用机;用于部署应用服务节点。

上述为逻辑规划,原则上对于机器配置没有特别要求,可以混用;如接口机上也用于部署外部组件,同时也作为服务节点部署服务。

组件机上规划有指标和日志汇聚hudi任务多的情况下对IO和磁盘有一定的负载要求建议单独部署。

外部资源确认

  • 可用的Zookeeper集群增删改查
  • 可用的Hadoop3集群HDFS增删改查
  • 可用的Yarn集群任务提交
  • 可用的应用部署主机Kerberos、JDK
  • 部署主机到配置数据库的网络连通
  • 部署主机到Pulsar集群的网络连通admin、client连通
  • Yarn集群节点到组件机的网络连通
  • Yarn集群节点到Pulsar集群的网络连通client
Hadoop配置

config目录下以「hudi数据所有集群名称+hudi同步运行集群名称」的格式建立配置文件夹b2b12,并将下列配置文件放在这里

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • viewfs-mount-table.xml如果需要使用联邦core-site.xml也需要将引用改为相对路径引用

外部组件部署

Victoria Metrics
Loki
Grafana

部署配置

service-cli/service-cli-runner/src/main/resources/application-b12.yml为模版,补全应用部署信息

service-web/src/main/resources/static/common/info.js#commonInfo为模板补全web页面相关信息

运维

模块

模块主要分为三部分,包含 Hudi 运行代码、运维服务和部署工具。

Hudi 运行代码

sync

sync 模块包含 Hudi 运行的全部业务逻辑Hudi on flink 的运行模式为

运维服务

部署工具

开发

Description
一个完整的基于Hudi的同步应用
Readme 32 MiB
Languages
CSS 55.2%
JavaScript 41.3%
Java 3.5%