📄️ 使用 Spark Connector 加载数据(推荐)
StarRocks 提供了一个名为 StarRocks Connector for Apache Spark™(简称 Spark connector)的自研连接器,可帮助您使用 Spark 将数据加载到 StarRocks 表中。 基本原理是累积数据,然后通过 STREAM LOAD 一次性将所有数据加载到 StarRocks 中。 Spark connector 基于 Spark DataSource V2 实现。 可以使用 Spark DataFrames 或 Spark SQL 创建 DataSource。并且支持批量和结构化流模式。
📄️ 使用 Spark Load 批量加载数据
此加载使用外部 Apache Spark™ 资源来预处理导入的数据,从而提高了导入性能并节省了计算资源。 它主要用于初始迁移和将大量数据导入 StarRocks(数据量达到 TB 级别)。