バージョン: Stable-3.3

INSERT INTO FILES を使用したデータのアンロード

このトピックでは、INSERT INTO FILES を使用して StarRocks からリモートストレージにデータをアンロードする方法について説明します。

バージョン 3.2 以降、StarRocks はテーブル関数 FILES() を使用してリモートストレージに書き込み可能なファイルを定義することをサポートしています。その後、FILES() と INSERT 文を組み合わせて、StarRocks からリモートストレージにデータをアンロードできます。

StarRocks がサポートする他のデータエクスポート方法と比較して、INSERT INTO FILES を使用したデータのアンロードは、より統一された使いやすいインターフェースを提供します。リモートストレージからデータをロードする際に使用したのと同じ構文を使用して、データを直接リモートストレージにアンロードできます。さらに、この方法では、指定された列の値を抽出することで、異なるストレージパスにデータファイルを保存することができ、エクスポートされたデータをパーティション化されたレイアウトで管理することができます。

注意

INSERT INTO FILES を使用したデータのアンロードは、ローカルファイルシステムへの直接エクスポートをサポートしていません。ただし、NFS を使用してローカルファイルにデータをエクスポートすることは可能です。NFS を使用したローカルファイルへのアンロードを参照してください。

準備

次の例では、データオブジェクトとして使用できるデータベース unload とテーブル sales_records を作成します。ご自身のデータを使用することもできます。

CREATE DATABASE unload;
USE unload;
CREATE TABLE sales_records(
    record_id     BIGINT,
    seller        STRING,
    store_id      INT,
    sales_time    DATETIME,
    sales_amt     DOUBLE
)
DUPLICATE KEY(record_id)
PARTITION BY date_trunc('day', sales_time)
DISTRIBUTED BY HASH(record_id);

INSERT INTO sales_records
VALUES
    (220313001,"Amy",1,"2022-03-13 12:00:00",8573.25),
    (220314002,"Bob",2,"2022-03-14 12:00:00",6948.99),
    (220314003,"Amy",1,"2022-03-14 12:00:00",4319.01),
    (220315004,"Carl",3,"2022-03-15 12:00:00",8734.26),
    (220316005,"Carl",3,"2022-03-16 12:00:00",4212.69),
    (220317006,"Bob",2,"2022-03-17 12:00:00",9515.88);

テーブル sales_records には、各トランザクションのトランザクション ID record_id、販売員 seller、店舗 ID store_id、時間 sales_time、販売額 sales_amt が含まれています。sales_time に基づいて日単位でパーティション化されています。

また、書き込みアクセス権を持つリモートストレージシステムを準備する必要があります。次の例では、以下のリモートストレージにデータをエクスポートします。

シンプルな認証方法が有効な HDFS クラスター。
IAM ユーザー資格情報を使用した AWS S3 バケット。

FILES() がサポートするリモートストレージシステムと資格情報方法について詳しくは、SQL リファレンス - FILES() を参照してください。

データのアンロード

INSERT INTO FILES は、単一ファイルまたは複数のファイルにデータをアンロードすることをサポートしています。これらのデータファイルを別々のストレージパスに指定することで、さらにパーティション化することができます。

INSERT INTO FILES を使用してデータをアンロードする際には、プロパティ compression を使用して圧縮アルゴリズムを手動で設定する必要があります。FILES がサポートするデータ圧縮アルゴリズムの詳細については、unload_data_param を参照してください。

複数のファイルにデータをアンロード

デフォルトでは、INSERT INTO FILES はデータを複数のデータファイルにアンロードし、各ファイルのサイズは 1 GB です。ファイルサイズはプロパティ target_max_file_size (単位: バイト) を使用して設定できます。

次の例では、sales_records のすべてのデータ行を data1 というプレフィックスが付いた複数の Parquet ファイルとしてアンロードします。各ファイルのサイズは 1 KB です。

注記

ここで target_max_file_size を 1 KB に設定するのは、小さなデータセットで複数のファイルにアンロードすることを示すためです。実運用環境では、この値を数百 MB から数 GB の範囲内に設定することを強くお勧めします。

S3 へのアンロード:

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/data1",
    "format" = "parquet",
    "compression" = "uncompressed",
    "target_max_file_size" = "1024", -- 1KB
    "aws.s3.access_key" = "xxxxxxxxxx",
    "aws.s3.secret_key" = "yyyyyyyyyy",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

HDFS へのアンロード:

INSERT INTO 
FILES(
    "path" = "hdfs://xxx.xx.xxx.xx:9000/unload/data1",
    "format" = "parquet",
    "compression" = "uncompressed",
    "target_max_file_size" = "1024", -- 1KB
    "hadoop.security.authentication" = "simple",
    "username" = "xxxxx",
    "password" = "xxxxx"
)
SELECT * FROM sales_records;

異なるパスに複数のファイルとしてデータをアンロード

プロパティ partition_by を使用して、指定された列の値を抽出することで、異なるストレージパスにデータファイルをパーティション化することもできます。

次の例では、sales_records のすべてのデータ行を /unload/partitioned/ パスの下にある複数の Parquet ファイルとしてアンロードします。これらのファイルは、列 sales_time の値によって区別される異なるサブパスに保存されます。

S3 へのアンロード:

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/partitioned/",
    "format" = "parquet",
    "compression" = "lz4",
    "partition_by" = "sales_time",
    "aws.s3.access_key" = "xxxxxxxxxx",
    "aws.s3.secret_key" = "yyyyyyyyyy",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

HDFS へのアンロード:

INSERT INTO 
FILES(
    "path" = "hdfs://xxx.xx.xxx.xx:9000/unload/partitioned/",
    "format" = "parquet",
    "compression" = "lz4",
    "partition_by" = "sales_time",
    "hadoop.security.authentication" = "simple",
    "username" = "xxxxx",
    "password" = "xxxxx"
)
SELECT * FROM sales_records;

単一ファイルにデータをアンロード

単一のデータファイルにデータをアンロードするには、プロパティ single を true に指定する必要があります。

次の例では、sales_records のすべてのデータ行を data2 というプレフィックスが付いた単一の Parquet ファイルとしてアンロードします。

S3 へのアンロード:

INSERT INTO 
FILES(
    "path" = "s3://mybucket/unload/data2",
    "format" = "parquet",
    "compression" = "lz4",
    "single" = "true",
    "aws.s3.access_key" = "xxxxxxxxxx",
    "aws.s3.secret_key" = "yyyyyyyyyy",
    "aws.s3.region" = "us-west-2"
)
SELECT * FROM sales_records;

HDFS へのアンロード:

INSERT INTO 
FILES(
    "path" = "hdfs://xxx.xx.xxx.xx:9000/unload/data2",
    "format" = "parquet",
    "compression" = "lz4",
    "single" = "true",
    "hadoop.security.authentication" = "simple",
    "username" = "xxxxx",
    "password" = "xxxxx"
)
SELECT * FROM sales_records;

MinIO へのアンロード

MinIO 用のパラメータは、AWS S3 用のパラメータとは異なります。

例:

INSERT INTO 
FILES(
    "path" = "s3://huditest/unload/data3",
    "format" = "parquet",
    "compression" = "zstd",
    "single" = "true",
    "aws.s3.access_key" = "xxxxxxxxxx",
    "aws.s3.secret_key" = "yyyyyyyyyy",
    "aws.s3.region" = "us-west-2",
    "aws.s3.use_instance_profile" = "false",
    "aws.s3.enable_ssl" = "false",
    "aws.s3.enable_path_style_access" = "true",
    "aws.s3.endpoint" = "http://minio:9000"
)
SELECT * FROM sales_records;

NFS を使用したローカルファイルへのアンロード

file:// プロトコルを介して NFS 内のファイルにアクセスするには、各 BE または CN ノードの同じディレクトリの下に NAS デバイスを NFS としてマウントする必要があります。

例:

-- CSV ファイルにデータをアンロードします。
INSERT INTO FILES(
  'path' = 'file:///home/ubuntu/csvfile/', 
  'format' = 'csv', 
  'csv.column_separator' = ',', 
  'csv.row_delimitor' = '\n'
)
SELECT * FROM sales_records;

-- Parquet ファイルにデータをアンロードします。
INSERT INTO FILES(
  'path' = 'file:///home/ubuntu/parquetfile/',
   'format' = 'parquet'
)
SELECT * FROM sales_records;

参照

INSERT の使用方法についての詳細は、SQL リファレンス - INSERT を参照してください。
FILES() の使用方法についての詳細は、SQL リファレンス - FILES() を参照してください。

準備​

データのアンロード​

複数のファイルにデータをアンロード​

異なるパスに複数のファイルとしてデータをアンロード​

単一ファイルにデータをアンロード​

MinIO へのアンロード​

NFS を使用したローカルファイルへのアンロード​

参照​

このドキュメントについてどう思いましたか？

準備