Hudi Streamer 简介

2022-09-19 warehouse hudi

提供了实时的数据倒入方式,其源端可以是 Kafka 或者文件。

简介

以一种近实时方式写入 Hudi 表,开始被称为 HoodieDeltaStreamer 工具,后在 0.14.1 中修改为 HoodieStreamer,打包在 hudi-utilities-bundle 中,可以直接从官方文档的 How To 章节下查找。

spark-submit --class org.apache.hudi.utilities.streamer.HoodieStreamer \
    /svr/hudi/hudi-utilities-bundle_2.12-0.14.1.jar --help

其它

Checkpoint

通过 Streamer 导入在提交时会保存 Checkpoint 信息,对于 Kafka 来说就是其消息的偏移,而 DFS 则是文件的修改时间。

注意,对于文件导入没有发现有效的修改办法,只能每次 Drop 表了。