お知らせ:

当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データパイプラインの作成

データセットのアップロードが完了したので、次にデータセットを使用してデータパイプラインを作成します。

  1. 左側メニューのDatasetsコンポーネントに移動します。データパイプラインを作成するには2つの方法があります:

    • データセットをクリックし、ページ右上のCreate Pipelineをクリックします。 create-pipeline
    • 下の画像に示すように、データセット名の左側にあるペンアイコンをクリックします。 pen-icon
  2. パイプライン名を「Fraud Detection Data Pipeline」と入力し、Create Pipelineをクリックします。 Pipeline Name

以下のスクリーンショットのように、パイプラインビルダーインターフェースが開きます。 Initial Pipeline

データセットのクリーニング、精製、変換を行い、データパイプラインを実行するために、以下の一連のデータ前処理操作を実施します。各操作には、パイプラインを構成するための個別のデータノードが使用されます。

QuickMLによるデータ前処理

  1. カラムの選択/削除

    データセットからカラムを選択または削除することは、データ分析や機械学習における一般的なデータ前処理のステップです。カラムの選択または削除は、分析やモデリングタスクの具体的な目的と要件に応じて判断します。 このデータセットからモデルトレーニングに不要なカラムは、「ID」、「trans_date_trans_time」、「cc_num」、「Merchant」、「First」、「Last」、「Street」、「City」、「Zip」、「Lat」、「Long」、「job」、「dob」、「Trans_num」、「Unix_Time」、「merch_lat」、「merch_long」です。QuickMLを使用すると、Data CleaningコンポーネントのSelect/Dropノードを使用して、モデルトレーニングに必要なフィールドをデータセットからすばやく選択できます。 required-field-selection

  2. データのフィルタリング

    データセットのフィルタリングとは、特定の基準や条件を満たすDataFrameの行のサブセットを選択することを指します。ここでは、Data CleaningセッションのFilterノードを使用して、「state」カラムの値が空でないものをフィルタリングします。 Data Filter

  3. 保存と実行

    次に、Filter ノードDestinationノードに接続します。すべてのノードが接続されたら、Saveボタンをクリックしてパイプラインを保存します。次に、Executeボタンをクリックしてパイプラインを実行します。 Completed data pipeline

以下のページにリダイレクトされ、実行ステータス付きの実行済みパイプラインが表示されます。パイプラインの実行が成功したことが確認できます。

Executed data pipeline

Execution Statsをクリックすると、以下のようにコンピュート使用量の詳細を確認できます。

Execution stats for data pipeline

このパートでは、QuickMLを使用したデータ処理方法を確認しました。機械学習モデルの作成に向けてデータを準備するためのさまざまな効果的な方法を提供しています。このデータパイプラインは、Catalystプロジェクト内のさまざまなユースケースに対応する複数のML実験の作成に再利用できます。

最終更新日 2026-03-05 11:43:24 +0530 IST