フィールド名称 | 説明 |
タスクID | タスクの一意の識別子です。 |
タスク名 | プレフィックス_yyyymmddhhmmss_8桁のuuidで、yyyymmddhhmmssはタスクの実行時間です。 プレフィックスルール: 1. コンソールで提出されたジョブタスクの場合、プレフィックスはジョブ名となります。例えば、ユーザーがcustomer_segmentation_jobというジョブを作成し、2024.11.26 21:25:10に実行した場合、タスクIDはcustomer_segmentation_job_20241126212510_f2a65wk1となります。現在のデータ形式制限に基づき、ジョブ名は100文字以内です。 2. データ探索ページで提出されたSQLタイプのタスクは、プレフィックスがsql_queryとなります。例:sql_query_20241126212510_f2a65wk1。 3. データ最適化タスクでは、最適化タスクの異なるサブタイプに応じたプレフィックスが設定されます。具体的には: 3.1 オプティマイザーのプレフィックスはoptimizerのみです。 3.2 最適化インスタンスのSQLタイプはoptimizer_sqlです。 3.3 最適化インスタンスのバッチタイプはoptimizer_batchです。 3.4 データ最適化戦略を設定する場合に作成される設定タスクoptimizer_configです。 4. データインポートタスクの場合、プレフィックスはimportです。例:import_20241126212510_f2a65wk1。 5. データエクスポートタスクの場合、プレフィックスはexportです。例:export_20241126212510_f2a65wk1。 6. Wedata提出の場合、プレフィックスはwdです。例:wd_20241126212510_f2a65wk1。 7. その他のインターフェースで提出されたタスクの場合、プレフィックスはcustomizedとなります。例:customized_20241126212510_f2a65wk1。 8. メタデータ管理ページでメタデータに対して操作を行う際に作成されるタスクは、プレフィックスがmetadataとなります。例:metadata_20241126212510_f2a65wk1。 |
タスク状態 | 起動中 実行中 キューイング中 成功 失敗 キャンセル済み 期限切れ タスクタイムアウト |
タスク内容 | タスクの詳細内容。ジョブタイプのタスクはジョブ詳細のハイパーリンクです。SQLタイプのタスクは完全なSQL文です。 |
タスクタイプ | ジョブタイプとSQLタイプに分けられます。 |
タスク発生元 | 当該タスクの発生元。データ探索タスク、データジョブタスク、データ最適化タスク、インポートタスク、エクスポートタスク、メタデータ管理、Wedataタスク、インターフェース送信タスクをサポートしています。 |
サブチャネル | ユーザーがインターフェースからタスクを送信する際、サブチャネルをカスタマイズできます。 |
計算リソース | 当該タスクの実行に使用する計算エンジン/リソースグループ |
* 累計 CPU * 時間(消費 CU*時)。 | 統計対象は、計算に使用されたSpark Executorの各コアにおけるCPU実行時間の合計です(単位:時間)。これはクラスタのマシン起動時間と等しくないことにご注意ください。なぜなら、マシン起動後も必ずしもタスク計算に参加するとは限らず、最終的なクラスタのCU消費量に基づく課金は請求書を基準とします。 Sparkシナリオでは、おおよそSparkタスクの実行時間の直列合計(秒)を3600で割った値に相当します(単位:時間)。 (この指標はタスク完了後にのみ統計可能です。) |
実行合計時間 | タスクの開始から終了までの時間であり、リソース不足による待機時間が含まれる可能性があります。 1. Spark SQLタスクの場合、プラットフォームのスケジューリング時間 + エンジン内の待ち時間 + エンジン内の実行時間です。 2. Sparkジョブタスクの場合、プラットフォームのスケジューリング時間 + エンジン起動時間 + エンジン内の待ち時間 + エンジン内の実行時間です。 |
* エンジン実行時間 | このタスクにインサイト結果がある場合、エンジン内の実行時間を反映し、実際の計算に要した時間、つまりSparkタスクの最初のタスクの実行開始からタスク終了までの所要時間を示します。 具体的には、各Sparkステージの最初のタスクから最後のタスク完了までの所要時間の合計を集計します。これには、タスク開始時の待ち時間(タスク投入からSparkタスク実行開始までのスケジューリング時間など)は含まれません。また、タスク実行中に複数のSparkステージ間でexecutorリソース不足によりタスク実行待ちが発生した時間も除外されます。(なお、この指標はタスク完了後にのみ統計可能です。) |
* データスキャン量 | このタスクがストレージから読み取った物理データ量は、Sparkシナリオでは、おおよそSpark UIのステージ入力サイズの合計に相当します。 |
* データスキャン件数 | このタスクがストレージから読み取った物理データ件数は、Sparkシナリオでは、おおよそSpark UIのステージ入力レコードの合計に相当します。 |
作成者 | ジョブタイプのタスクの場合、当該ジョブの作成者となります。 |
実行者 | 当該タスクを実行するユーザーです。 |
提出時間 | ユーザーがタスクを提出した時間。 |
*エンジン実行時間 | このタスクが初めてCPUを確保して実行を開始した時間、Sparkエンジン内部で実行を開始した最初のタスクの時間です。 (この指標はタスク完了後にのみ統計可能です。) |
*出力ファイル数 | この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。 タスクがINSERTなどのステートメントを介して書き込んだファイルの総数です。 (この指標はタスク完了後にのみ統計可能です。) |
*出力小ファイル数 | この指標の収集には、Sparkエンジンカーネルを2024.11.16以降のバージョンにアップグレードする必要があります。 小ファイルの定義:出力された単一ファイルのサイズが4MB未満の場合、小ファイルと定義されます(パラメータspark.dlc.monitorFileSizeThresholdで制御され、デフォルトは4MBです。エンジングローバルまたはタスクレベルでの設定が可能です)。 本指標の定義:タスクがINSERTなどのステートメントを介して書き込んだ小ファイルの総数です。 (この指標はタスク完了後にのみ統計可能です。) |
*出力総行数 | このタスクがデータ処理後に出力するレコード数は、Sparkシナリオでは、おおよそSpark UIのステージ出力レコードの合計に相当します。 |
*出力総サイズ | このタスクがデータ処理後に出力するレコードサイズは、Sparkシナリオでは、おおよそSpark UIのステージ出力サイズの合計値に相当します。 |
*データシャッフル行数 | Sparkシナリオでは、おおよそSpark UIのステージシャッフル読み取りレコードの合計に相当します。 (この指標はタスク完了後にのみ統計可能です。) |
*データシャッフルサイズ | Sparkシナリオでは、おおよそSpark UIのステージシャッフル読み取りサイズの合計に相当します。 (この指標はタスク完了後にのみ統計可能です。) |
*ヘルスステータス | (この指標はタスク完了後にのみ統計可能です。) |
フィードバック