COSを使用した外部テーブルデータのインポート
データレイクコンピューティング DLC は、データを移行せずにオブジェクトストレージ COS 上のデータを直接クエリ・分析できるため、データをオブジェクトストレージ COS にインポートするだけで、データレイクコンピューティング DLC を使用したシームレスなデータ分析を開始でき、データストレージとコンピューティングを完全に分離できます。現在、orc、parquet、arvo、json、csv およびテキストファイルなど、さまざまな形式のアップロードがサポートされています。
現在、オブジェクトストレージ COS は豊富なデータインポート方法を提供しており、ご自身の状況に応じて以下の方法からデータをインポートできます。
オブジェクトストレージ COS サービスが提供するさまざまなアップロードツールを使用してデータをインポートします。ツールのサポートリストについては、ツール概要を参照してください。 オブジェクトストレージ COS サービスが提供する SDK または API を使用してデータをインポートします。サービスの関連説明については、アップロードインターフェースドキュメントを参照してください。 ログサービスCLS内のログを分析する必要がある場合、パーティションごとにログをオブジェクトストレージCOSに直接配信し、データレイクコンピューティングDLCを通じて直接分析クエリを行うことができます。関連操作については、DLC(Hive)を使用したCLSログの分析を参照してください。 他のクラウドサービス(データベースCDBなど)のデータをオブジェクトストレージCOSにインポートする必要がある場合、データ統合DataInLongを使用してインポートできます。データ同期リンクを作成する際に、データソースとしてエクスポートするクラウドサービスを選択し、宛先としてオブジェクトストレージCOSを選択すれば、データのインポートが完了します。
データのインポート中に問題が発生した場合は、チケットを提出して、解決策をご相談ください。
データをCOSにインポートした後、データレイクコンピューティングDLCのコンソール、API、SDKを使用してSQLクエリを実行し、テーブルの作成、分析、結果のエクスポートなどの操作を実現できます。詳細な操作については、DLCデータ分析の1分間入門をご参照ください。 データをネイティブテーブルにインポート
より優れたデータクエリ性能を提供するため、データレイクコンピューティングDLCは、データをネイティブテーブルにインポートした後のクエリ分析もサポートしています。DLCネイティブテーブルはIcebergテーブル形式に基づいてデータを配置し、データのインポートプロセス中にデータを最適化します。以下の使用シナリオがある場合は、ネイティブテーブルを使用したデータクエリ分析をお勧めします。
データウェアハウス分析シナリオにおいて、Icebergインデックスを活用してより優れた分析性能を得たい場合。
データの更新要件があり、DLCサービスを介してSQLまたはデータジョブでUPSERT操作を実現したいです。
データはDataInLong、Flink、Oceanusストリームコンピューティング、Spark Streamingを介してリアルタイムで書き込まれ更新され、読み書きが同時に行われ、トランザクション保証が必要なデータ処理業務です。
Icebergテーブルの関連機能(タイムトラベル、マルチバージョンスナップショット、隠しパーティション、パーティション進化などの高度なデータレイク機能)を使用したいです。
データをネイティブテーブルにインポートする必要がある場合、ご自身の状況に応じて以下の方法からデータインポートを選択できます。
注意
コンソールを使用してデータをインポートする場合、一定の使用制限があり、主に迅速なテスト用であり、本番環境での使用は推奨されません。
MySQLやKafkaなどの業務で元データがある場合、MySQLのbinlogやメッセージミドルウェアのデータを分単位でDLCにリアルタイムで書き込み/更新する必要がある場合は、データ統合DataInlongのリアルタイムインポート機能を利用できます。または、ストリームコンピューティングOceanusやFlinkを使用して書き込むことも可能です。操作ガイドが必要な場合は、チケットを通じてお問い合わせください。 MySQL、Kafka、MongoDBなどのデータ業務で元データがある場合、データ統合DataInLongのオフライン同期タスクを使用してデータをネイティブテーブルに転送できます。データウェアハウスモデリングプロセスにおいて、外部テーブルを元データのソースレイヤーとして使用し、データをネイティブテーブルに転送する際に、スパースインデックスの構築などの方法をビジネスと組み合わせてデータ分布を再配置することで、優れたネイティブテーブルのクエリ分析性能を得ることができます。ガイドが必要な場合は、お問い合わせください。 外部テーブルのデータをクエリしてネイティブテーブルに書き込むには、SQL構文のSELECT INSERTを使用します。例:データレイクコンピューティングDLCで外部テーブルと同じテーブル構造のネイティブテーブルを作成し、SparkSQLエンジンでSQL構文を実行して転送を完了します。構文の例は以下のとおりです:
-外部テーブル名:outtertable、ネイティブテーブル名:innertable
insert into innertable select * from outtertable
データのインポート中に問題が発生した場合、チケットを提出することで、解決策をご提供いたします。 マルチデータソース連携クエリ分析
データをオブジェクトストレージCOSまたはデータレイクコンピューティングDLCのネイティブテーブルにエクスポートしたくない場合、データレイクコンピューティングDLCはデータ連携クエリ分析機能も提供しており、データを移動させることなくSQLを使用して複数のデータソースのデータを迅速に関連分析することができます。現在、MySQL、SQLServer、clickhouse、postgreSQL、EMR on HDFS、EMR on COSなど、さまざまなデータソースがサポートされています。
連携分析を使用するには、データソースとデータエンジンが同じネットワーク下にある必要があります。ネットワークの接続と管理については、エンジンネットワーク設定を参照してください。 データ湖計算DLCを使用してEMRのデータを連携分析する場合、クエリ性能はEMRの性能と同等またはそれを上回り、本番環境に適しています。EMRサービスを移動させることなく、DLCのフルマネージドで弾力性のある能力を活用してコスト削減と効率向上を図ることができます。
連携分析は、複数のデータソースのデータを迅速に統合して分析することができ、データインサイトや迅速な分析に便利な方法を提供します。同時に、DLCのフルマネージドで弾力性のある能力を活用することで、使用コストを効果的に削減できます。また、INSERT INTO/INSERT OVERWRITE構文を使用して連携データをDLCのネイティブテーブルに書き込み、データインポートを完了することもサポートしています。
他のデータソースを連携分析する場合、計算プロセスにおいてデータをDLC側に同期して分析する必要があるため、元のデータソースを直接クエリする場合と比較して、性能に一定のロスが生じます。クエリ性能に高い要件がある場合は、データをネイティブテーブルにインポートしてから分析することができます。操作方法については、データをネイティブテーブルにインポートを参照してください。