機能サポート: データロードとアンロード
このドキュメントは、StarRocks がサポートするさまざまなデータロードおよびアンロード 方法の機能を概説します。
ファイル形式
ロードファイル形式
| データソース | ファイル形式 | |||||||
|---|---|---|---|---|---|---|---|---|
| CSV | JSON [3] | Parquet | ORC | Avro | ProtoBuf | Thrift | ||
| Stream Load | ローカルファイルシステム、アプリケーション、コネクタ | Yes | Yes | サポート予定 | サポート予定 | サポート予定 | ||
| INSERT from FILES | HDFS, S3, OSS, Azure, GCS, NFS(NAS) [5] | Yes (v3.3+) | サポート予定 | Yes (v3.1+) | Yes (v3.1+) | Yes (v3.4.4+) | サポート予定 | |
| Broker Load | Yes | Yes (v3.2.3+) | Yes | Yes | サポート予定 | |||
| Routine Load | Kafka | Yes | Yes | サポート予定 | サポート予定 | Yes (v3.0+) [1] | サポート予定 | サポート予定 |
| Spark Load | Yes | サポート予定 | Yes | Yes | サポート予定 | |||
| コネクタ | Flink, Spark | Yes | Yes | サポート予定 | サポート予定 | サポート予定 | ||
| Kafka Connector [2] | Kafka | Yes (v3.0+) | サポート予定 | サポート予定 | Yes (v3.0+) | サポート予定 | ||
| PIPE [4] | INSERT from FILES と一致 | |||||||
[1], [2]: Schema Registry が必要です。
[3]: JSON はさまざまな CDC 形式をサポートします。StarRocks がサポートする JSON CDC 形式の詳細については、JSON CDC format を参照してください。
[4]: 現在、PIPE を使用したロードでは INSERT from FILES のみがサポートされています。
[5]: 各 BE または CN ノードの同じディレクトリに NAS デバイスを NFS としてマウントし、file:// プロトコルを介して NFS 内のファイルにアクセスする必要があります。
JSON CDC 形式
| Stream Load | Routine Load | Broker Load | INSERT from FILES | Kafka Connector [1] | |
|---|---|---|---|---|---|
| Debezium | サポート予定 | サポート予定 | サポート予定 | サポート予定 | Yes (v3.0+) |
| Canal | サポート予定 | ||||
| Maxwell | |||||
[1]: StarRocks の主キーテーブルに Debezium CDC 形式のデータをロードする際には、transforms パラメータを設定する必要があります。
アンロードファイル形式
| ターゲット | ファイル形式 | |||||
|---|---|---|---|---|---|---|
| テーブル形式 | リモートストレージ | CSV | JSON | Parquet | ORC | |
| INSERT INTO FILES | N/A | HDFS, S3, OSS, Azure, GCS, NFS(NAS) [3] | Yes (v3.3+) | サポート予定 | Yes (v3.2+) | Yes (v3.3+) |
| INSERT INTO Catalog | Hive | HDFS, S3, OSS, Azure, GCS | Yes (v3.3+) | サポート予定 | Yes (v3.2+) | Yes (v3.3+) |
| Iceberg | HDFS, S3, OSS, Azure, GCS | サポート予定 | サポート予定 | Yes (v3.2+) | サポート予定 | |
| Hudi/Delta | サポート予定 | |||||
| EXPORT | N/A | HDFS, S3, OSS, Azure, GCS | Yes [1] | サポート予定 | サポート予定 | サポート予定 |
| PIPE | サポート予定 [2] | |||||
[1]: Broker プロセスの設定がサポートされています。
[2]: 現在、PIPE を使用したデータのアンロードはサポートされていません。
[3]: 各 BE または CN ノードの同じディレクトリに NAS デバイスを NFS としてマウントし、file:// プロトコルを介して NFS 内のファイルにアクセスする必要があります。
ファイル形式関連のパラメータ
ロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | INSERT from FILES | Broker Load | Routine Load | Spark Load | ||
| CSV | column_separator | Yes | Yes (v3.3+) | Yes [1] | ||
| row_delimiter | Yes | Yes [2] (v3.1+) | Yes [3] (v2.2+) | サポート予定 | ||
| enclose | Yes (v3.0+) | Yes (v3.0+) | Yes (v3.0+) | サポート予定 | ||
| escape | ||||||
| skip_header | サポート予定 | |||||
| trim_space | Yes (v3.0+) | |||||
| JSON | jsonpaths | Yes | サポート予定 | Yes (v3.2.3+) | Yes | サポート予定 |
| strip_outer_array | ||||||
| json_root | ||||||
| ignore_json_size | サポート予定 | |||||
[1]: 対応するパラメータは COLUMNS TERMINATED BY です。
[2]: 対応するパラメータは ROWS TERMINATED BY です。
[3]: 対応するパラメータは ROWS TERMINATED BY です。
アンロードファイル形式関連のパラメータ
| ファイル形式 | パラメータ | アンロード方法 | |
|---|---|---|---|
| INSERT INTO FILES | EXPORT | ||
| CSV | column_separator | Yes (v3.3+) | Yes |
| line_delimiter [1] | |||
[1]: データロードでの対応するパラメータは row_delimiter です。
圧縮形式
ロード圧縮形式
| ファイル形式 | 圧縮形式 | ロード方法 | ||||
|---|---|---|---|---|---|---|
| Stream Load | Broker Load | INSERT from FILES | Routine Load | Spark Load | ||
| CSV |
| Yes [1] | Yes [2] | サポート予定 | サポート予定 | サポート予定 |
| JSON | Yes (v3.2.7+) [3] | サポート予定 | N/A | サポート予定 | N/A | |
| Parquet |
| N/A | Yes [4] | サポート予定 | Yes [4] | |
| ORC | ||||||
[1]: 現在、CSV ファイルを Stream Load でロードする場合のみ、format=gzip を使用して圧縮形式を指定できます。これは gzip 圧縮された CSV ファイルを示します。deflate および bzip2 形式もサポートされています。
[2]: Broker Load は、format パラメータを使用して CSV ファイルの圧縮形式を指定することをサポートしていません。Broker Load はファイルの拡張子を使用して圧縮形式を識別します。gzip 圧縮ファイルの拡張子は .gz であり、zstd 圧縮ファイルの拡張子は .zst です。さらに、trim_space や enclose などの他の format 関連のパラメータもサポートされていません。
[3]: compression = gzip を使用して圧縮形式を指定することがサポートされています。
[4]: Arrow Library によってサポートされています。compression パラメータを設定する必要はありません。