跳到主要内容
版本: 最新版本-3.5

数据湖仓

DLA

除了高效分析本地数据外,StarRocks 还可以作为计算引擎来分析存储在 data lake 中的数据,例如 Apache Hudi、Apache Iceberg 和 Delta Lake。 StarRocks 的主要功能之一是它的外部 Catalog,它充当与外部维护的元数据存储的链接。此功能使用户能够无缝查询外部数据源,而无需数据迁移。因此,用户可以分析来自不同系统(例如 HDFS 和 Amazon S3)的数据,以各种文件格式(例如 Parquet、ORC 和 CSV 等)。

上图显示了一个 data lake 分析场景,其中 StarRocks 负责数据计算和分析,而 data lake 负责数据存储、组织和维护。 Data lake 允许用户以开放存储格式存储数据,并使用灵活的 Schema 生成各种 BI、AI、Ad-hoc 和报告用例的“单一事实来源”的报告。 StarRocks 充分利用其向量化引擎和 CBO 的优势,显着提高了 data lake 分析的性能。

主要思路

  • 开放数据格式:支持多种数据类型,包括 JSON、Parquet 和 Avro,方便结构化和非结构化数据的存储和处理。
  • 元数据管理:实现共享元数据层,通常利用 Iceberg 表格式等格式,以有效地组织和管理数据。
  • 多样化的查询引擎:结合了多个引擎,如 Presto 和 Spark 的增强版本,以满足各种分析和 AI 用例。
  • 治理和安全性:具有强大的内置机制,用于数据安全、隐私和合规性,确保数据的完整性和可信度。

Data Lakehouse 架构的优势

  • 灵活性和可扩展性:无缝管理各种数据类型,并根据组织的需求进行扩展。
  • 成本效益:与传统方法相比,为数据存储和处理提供了一种经济的替代方案。
  • 增强的数据治理:改进了数据控制、管理和完整性,确保可靠和安全的数据处理。
  • AI 和分析就绪:非常适合复杂的分析任务,包括机器学习和 AI 驱动的数据处理。

StarRocks 方法

需要考虑的关键事项是

  • 标准化与 Catalog 或元数据服务的集成
  • 计算节点的弹性可扩展性
  • 灵活的缓存机制

Catalogs

StarRocks 有两种类型的 Catalog:内部 Catalog 和外部 Catalog。 内部 Catalog 包含 StarRocks 数据库中存储的数据的元数据。 外部 Catalog 用于处理外部存储的数据,包括由 Hive、Iceberg、Delta Lake 和 Hudi 管理的数据。 还有许多其他外部系统,链接位于页面底部的更多信息部分。

计算节点 (CN) 扩展

存储和计算分离降低了扩展的复杂性。 由于 StarRocks 计算节点仅存储本地缓存,因此可以根据负载添加或删除节点。

数据缓存

计算节点上的缓存是可选的。 如果您的计算节点根据快速变化的负载模式快速启动和关闭,或者您的查询通常仅针对最新数据,则缓存数据可能没有意义。