tencent cloud

Data Lake Compute

製品概要
プロダクト概要
製品の強み
適用シーン
購入ガイド
課金概要
返金説明
支払い期限切れ説明
設定調整費用の説明
クイックスタート
新規ユーザー開通フルプロセス
DLC データインポートガイド
DLCデータ分析の1分間入門
DLC権限管理の1分間入門
パーティションテーブル1分間入門
データ最適化をオンにする
クロスソース分析 EMR Hive データ
標準エンジン構成ガイド
操作ガイド
コンソール操作紹介
開発ガイド
実行環境
SparkJar ジョブ開発ガイド
PySparkジョブ開発ガイド
「クエリパフォーマンス最適化ガイド」
UDF 関数開発ガイド
システム制約
クライアントアクセス
JDBCアクセス
TDLC コマンドラインツールにアクセス
サードパーティソフトウェア連携
Python にアクセス
実践チュートリアル
DLC を Power BI に接続
テーブル作成の実践
Apache Airflowを使用してDLCエンジンのタスクをスケジュールして送信する
StarRocks は DLC 内部ストレージを直接クエリします
Spark の計算コスト最適化プラクティス
DATA + AI
ロールSSOを使用してDLCにアクセスする
SQL構文
SuperSQL構文
標準 Spark 構文概要
標準 Presto 構文の概要
予約語
API Documentation
History
Introduction
API Category
Making API Requests
Data Table APIs
Task APIs
Metadata APIs
Service Configuration APIs
Permission Management APIs
Database APIs
Data Source Connection APIs
Data Optimization APIs
Data Engine APIs
Resource Group for the Standard Engine APIs
Data Types
Error Codes
一般クラスリファレンス
エラーコード
クォータと制限
サードパーティソフトウェアでDLCに接続する操作ガイド
よくあるご質問
権限に関するよくあるご質問
エンジン類のよくある質問
機能に関するよくあるご質問
Sparkジョブクラスに関するよくある質問
DLC ポリシー
プライバシーポリシー
データプライバシーとセキュリティ契約
お問い合わせ

DLC データインポートガイド

PDF
フォーカスモード
フォントサイズ
最終更新日: 2025-12-22 17:55:41

COSを使用した外部テーブルデータのインポート

データレイクコンピューティング DLC は、データを移行せずにオブジェクトストレージ COS 上のデータを直接クエリ・分析できるため、データをオブジェクトストレージ COS にインポートするだけで、データレイクコンピューティング DLC を使用したシームレスなデータ分析を開始でき、データストレージとコンピューティングを完全に分離できます。現在、orc、parquet、arvo、json、csv およびテキストファイルなど、さまざまな形式のアップロードがサポートされています。 現在、オブジェクトストレージ COS は豊富なデータインポート方法を提供しており、ご自身の状況に応じて以下の方法からデータをインポートできます。
オブジェクトストレージ COSにログインし、直接ファイルをアップロードします。関連する操作手順については、オブジェクトのアップロードを参照してください。
オブジェクトストレージ COS サービスが提供するさまざまなアップロードツールを使用してデータをインポートします。ツールのサポートリストについては、ツール概要を参照してください。
オブジェクトストレージ COS サービスが提供する SDK または API を使用してデータをインポートします。サービスの関連説明については、アップロードインターフェースドキュメントを参照してください。
ログサービスCLS内のログを分析する必要がある場合、パーティションごとにログをオブジェクトストレージCOSに直接配信し、データレイクコンピューティングDLCを通じて直接分析クエリを行うことができます。関連操作については、DLC(Hive)を使用したCLSログの分析を参照してください。
他のクラウドサービス(データベースCDBなど)のデータをオブジェクトストレージCOSにインポートする必要がある場合、データ統合DataInLongを使用してインポートできます。データ同期リンクを作成する際に、データソースとしてエクスポートするクラウドサービスを選択し、宛先としてオブジェクトストレージCOSを選択すれば、データのインポートが完了します。
データのインポート中に問題が発生した場合は、チケットを提出して、解決策をご相談ください。 データをCOSにインポートした後、データレイクコンピューティングDLCのコンソール、API、SDKを使用してSQLクエリを実行し、テーブルの作成、分析、結果のエクスポートなどの操作を実現できます。詳細な操作については、DLCデータ分析の1分間入門をご参照ください。

データをネイティブテーブルにインポート

より優れたデータクエリ性能を提供するため、データレイクコンピューティングDLCは、データをネイティブテーブルにインポートした後のクエリ分析もサポートしています。DLCネイティブテーブルはIcebergテーブル形式に基づいてデータを配置し、データのインポートプロセス中にデータを最適化します。以下の使用シナリオがある場合は、ネイティブテーブルを使用したデータクエリ分析をお勧めします。
データウェアハウス分析シナリオにおいて、Icebergインデックスを活用してより優れた分析性能を得たい場合。
データの更新要件があり、DLCサービスを介してSQLまたはデータジョブでUPSERT操作を実現したいです。
データはDataInLong、Flink、Oceanusストリームコンピューティング、Spark Streamingを介してリアルタイムで書き込まれ更新され、読み書きが同時に行われ、トランザクション保証が必要なデータ処理業務です。
Icebergテーブルの関連機能(タイムトラベル、マルチバージョンスナップショット、隠しパーティション、パーティション進化などの高度なデータレイク機能)を使用したいです。
データをネイティブテーブルにインポートする必要がある場合、ご自身の状況に応じて以下の方法からデータインポートを選択できます。
注意
コンソールを使用してデータをインポートする場合、一定の使用制限があり、主に迅速なテスト用であり、本番環境での使用は推奨されません。
MySQLやKafkaなどの業務で元データがある場合、MySQLのbinlogやメッセージミドルウェアのデータを分単位でDLCにリアルタイムで書き込み/更新する必要がある場合は、データ統合DataInlongのリアルタイムインポート機能を利用できます。または、ストリームコンピューティングOceanusやFlinkを使用して書き込むことも可能です。操作ガイドが必要な場合は、チケットを通じてお問い合わせください。
MySQL、Kafka、MongoDBなどのデータ業務で元データがある場合、データ統合DataInLongのオフライン同期タスクを使用してデータをネイティブテーブルに転送できます。データウェアハウスモデリングプロセスにおいて、外部テーブルを元データのソースレイヤーとして使用し、データをネイティブテーブルに転送する際に、スパースインデックスの構築などの方法をビジネスと組み合わせてデータ分布を再配置することで、優れたネイティブテーブルのクエリ分析性能を得ることができます。ガイドが必要な場合は、お問い合わせください。
外部テーブルのデータをクエリしてネイティブテーブルに書き込むには、SQL構文のSELECT INSERTを使用します。例:データレイクコンピューティングDLCで外部テーブルと同じテーブル構造のネイティブテーブルを作成し、SparkSQLエンジンでSQL構文を実行して転送を完了します。構文の例は以下のとおりです:
-外部テーブル名:outtertable、ネイティブテーブル名:innertable
insert into innertable select * from outtertable
データのインポート中に問題が発生した場合、チケットを提出することで、解決策をご提供いたします。

マルチデータソース連携クエリ分析

データをオブジェクトストレージCOSまたはデータレイクコンピューティングDLCのネイティブテーブルにエクスポートしたくない場合、データレイクコンピューティングDLCはデータ連携クエリ分析機能も提供しており、データを移動させることなくSQLを使用して複数のデータソースのデータを迅速に関連分析することができます。現在、MySQL、SQLServer、clickhouse、postgreSQL、EMR on HDFS、EMR on COSなど、さまざまなデータソースがサポートされています。
連携分析を使用するには、データソースとデータエンジンが同じネットワーク下にある必要があります。ネットワークの接続と管理については、エンジンネットワーク設定を参照してください。
データ湖計算DLCを使用してEMRのデータを連携分析する場合、クエリ性能はEMRの性能と同等またはそれを上回り、本番環境に適しています。EMRサービスを移動させることなく、DLCのフルマネージドで弾力性のある能力を活用してコスト削減と効率向上を図ることができます。
連携分析は、複数のデータソースのデータを迅速に統合して分析することができ、データインサイトや迅速な分析に便利な方法を提供します。同時に、DLCのフルマネージドで弾力性のある能力を活用することで、使用コストを効果的に削減できます。また、INSERT INTO/INSERT OVERWRITE構文を使用して連携データをDLCのネイティブテーブルに書き込み、データインポートを完了することもサポートしています。
他のデータソースを連携分析する場合、計算プロセスにおいてデータをDLC側に同期して分析する必要があるため、元のデータソースを直接クエリする場合と比較して、性能に一定のロスが生じます。クエリ性能に高い要件がある場合は、データをネイティブテーブルにインポートしてから分析することができます。操作方法については、データをネイティブテーブルにインポートを参照してください。

ヘルプとサポート

この記事はお役に立ちましたか?

フィードバック