【专题】数据仓库

2010-12-21 topic warehouse

Kafka

高性能的分布式消息系统,应该是使用最为广泛的了。

  • 基本介绍 简单介绍一些常用的基本概念。
  • 常用命令 整理常用的命令,可以用来快速查询使用。

大数据组件

如下的组件是在 Java8 环境下进行验证的,在 CentOS 中可以通过 alternatives --config java 进行配置。

  • HDFS 分布式文件系统,适合 TP 级的大文件存储。
  • Hive 在 Hadoop 之上的数仓,支持类 SQL 语言,可以有效减少 MR 编写成本。
  • Spark 由 Uber 开源的实时数据湖解决方案。

Hudi

实时数据湖三剑客之一。

  • 基本介绍 由 Uber 开源的实时数据湖解决方案,基本环境可以参考 安装部署 中的介绍,以及一些 常用命令
  • 示例样板 通过 Spark 提供的测试用例,或者说是验证方案。
  • 元数据表 保存了相关的元数据,可以用来加速查询,也包含了索引的使用,表结构相关可以参考 Schema Evolution 介绍。
  • Streamer 用于数据导入,更多的场景是实时数据导入,可以参考常见示例 TPCH

DataFusion

StarRocks

其它

  • AirFlow 一个用于编排复杂计算工作流和数据处理流水线的开源工具。
  • Kerberos 分布式文件系统,适合 TP 级的大文件存储。
  • ORCParquet 在大数据中比较通用的两种数据格式,以及 AVRO 常用的元数据保存格式。
  • TPCH 标准测试集,实际上还包含了增量更新。
  • MinIO 开源的对象存储,通常用来替换 AWS 等云存储。