数据加载
🗃️ 加载概述
5 项
🗃️ 从对象存储加载
8 项
📄️ 从本地文件系统加载数据
StarRocks 提供了两种从本地文件系统加载数据的方法
📄️ 从 HDFS 加载数据
StarRocks 提供了以下从 HDFS 加载数据的选项
🗃️ 从 Apache Kafka 加载数据
2 项
🗃️ 使用 Apache Spark 加载数据
2 项
📄️ 使用 INSERT 加载数据
本主题介绍如何使用 SQL 语句 - INSERT 将数据加载到 StarRocks。
📄️ SQL 事务
启动一个简单的 SQL 事务,以便批量提交多个 DML 语句。
📄️ 使用 Stream Load 事务接口加载数据
从 v2.4 开始,StarRocks 提供了 Stream Load 事务接口,用于实现从 Apache Flink® 和 Apache Kafka® 等外部系统加载数据的事务两阶段提交(2PC)。Stream Load 事务接口有助于提高高并发流式加载的性能。
📄️ 从 MySQL 实时同步
StarRocks 支持多种方法实时同步 MySQL 数据到 StarRocks,实现海量数据的低延迟实时分析。
📄️ 从 Apache Flink® 持续加载数据
StarRocks 提供了一个自研的连接器 StarRocks Connector for Apache Flink®(简称 Flink connector),以帮助您使用 Flink 将数据加载到 StarRocks 表中。基本原理是累积数据,然后通过 STREAM LOAD 一次性加载到 StarRocks。
📄️ 从 Apache® Pulsar™ 持续加载数据
从 StarRocks 2.5 版本开始,Routine Load 支持从 Apache® Pulsar™ 持续加载数据。Pulsar 是一个分布式的、开源的 pub-sub 消息和流处理平台,具有存算分离架构。通过 Routine Load 从 Pulsar 加载数据的过程与从 Apache Kafka 加载数据类似。本主题以 CSV 格式数据为例,介绍如何通过 Routine Load 从 Apache Pulsar 加载数据。
📄️ 通过加载更改数据
StarRocks 提供的 Primary Key 表允许您通过运行 Stream Load、Broker Load 或 Routine Load 作业对 StarRocks 表进行数据更改。这些数据更改包括插入、更新和删除。但是,Primary Key 表不支持使用 Spark Load 或 INSERT 来更改数据。
📄️ 在加载时转换数据
StarRocks 支持在加载时进行数据转换。
📄️ 使用工具加载数据
StarRocks 及其生态系统合作伙伴提供以下工具来帮助您将 StarRocks 与外部数据库无缝集成。
📄️ 严格模式
严格模式(Strict mode)是您可以为数据加载配置的可选属性。它会影响加载行为和最终加载的数据。