Kafka
高性能的分布式消息系统,应该是使用最为广泛的了。
大数据组件
如下的组件是在 Java8
环境下进行验证的,在 CentOS 中可以通过 alternatives --config java
进行配置。
Hudi
实时数据湖三剑客之一。
- 基本介绍 由 Uber 开源的实时数据湖解决方案,基本环境可以参考 安装部署 中的介绍,以及一些 常用命令。
- 示例样板 通过 Spark 提供的测试用例,或者说是验证方案。
- 元数据表 保存了相关的元数据,可以用来加速查询,也包含了索引的使用,表结构相关可以参考 Schema Evolution 介绍。
- Streamer 用于数据导入,更多的场景是实时数据导入,可以参考常见示例 TPCH 。