提供了实时的数据倒入方式,其源端可以是 Kafka 或者文件。
简介
以一种近实时方式写入 Hudi 表,开始被称为 HoodieDeltaStreamer
工具,后在 0.14.1
中修改为 HoodieStreamer
,打包在 hudi-utilities-bundle
中,可以直接从官方文档的 How To 章节下查找。
spark-submit --class org.apache.hudi.utilities.streamer.HoodieStreamer \
/svr/hudi/hudi-utilities-bundle_2.12-0.14.1.jar --help
其它
Checkpoint
通过 Streamer 导入在提交时会保存 Checkpoint 信息,对于 Kafka 来说就是其消息的偏移,而 DFS 则是文件的修改时间。
注意,对于文件导入没有发现有效的修改办法,只能每次 Drop 表了。