お知らせ:

当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データパイプラインの作成

データセットのアップロードが完了したので、次にそのデータセットを使用してデータパイプラインを作成します。

  1. 左メニューのDatasetsコンポーネントに移動します。データパイプラインを作成する方法は2つあります。

    • データセットをクリックし、ページ右上のCreate Pipelineをクリックします。 create-pipeline
    • 下の画像に示すように、データセット名の左側にあるペンアイコンをクリックします。 pen-icon
      ここでは、前処理用にBank_Customers_Sample_Dataデータセットをアップロードしています。
  2. パイプラインに「Churn_Prediction_Data_Pipeline」と名前を付け、Create Pipelineをクリックします。 Pipeline Name

下のスクリーンショットに示すように、パイプラインビルダーインターフェースが開きます。 Initial Pipeline

データセットのクリーニング、精製、変換を行い、データパイプラインを実行するために、以下の一連のデータ前処理操作を実行します。これらの各操作は、パイプラインの構築に使用される個別のデータノードで構成されています。

QuickMLによるデータ前処理

  1. 列の選択/削除

    データセットから列を選択または削除することは、データ分析や機械学習における一般的なデータ前処理ステップです。列の選択や削除は、分析やモデリングタスクの目的と要件に応じて決定します。 このデータセットでモデルのトレーニングに不要な列は、「RowNumber」、「CustomerId」、「Surname」です。QuickMLでは、Data CleaningコンポーネントのSelect/Drop ノードを使用して、モデルトレーニングに必要なフィールドをデータセットからすばやく選択できます。 required-field-selection

  2. データセットの列への値の補填

    Data CleaningFill Columns ノードを使用すると、特定の条件に基づいて列の値を簡単に補填できます。要件に応じて、null値または非null値を補填できます。「EstimatedSalary」と「Balance」の列については、空の値をカスタム値「0」で置き換えます。 Fill Column

  3. データのフィルタリング

    データセットのフィルタリングとは、特定の条件を満たす行のサブセットをDataFrameから選択することを意味します。ここでは、Data CleaningセッションのFilterノードを使用して、「CreditScore」、「Geography」、「Gender」、「Age」、「Tenure」、「Exited」のすべての列で空でない値を持つデータをフィルタリングします。Data CleaningセッションのFilter ノードを使用します。 Data Filter

  4. 保存と実行

    すべてのノードが接続されたら、Saveボタンをクリックしてパイプラインを保存します。次に、Executeボタンをクリックしてパイプラインを実行します。 Completed data pipeline

下記のページにリダイレクトされ、実行ステータスとともに実行済みのパイプラインが表示されます。パイプラインの実行が成功したことを確認できます。

Executed data pipeline

Execution Statsをクリックすると、下記のようにコンピューティング使用量に関する詳細情報を確認できます。

Execution stats for data pipeline

このパートでは、QuickMLを使用したデータ処理の方法を確認しました。機械学習モデルの作成に向けてデータを準備するためのさまざまな効果的な方法を紹介しました。このデータパイプラインは、Catalystプロジェクト内のさまざまなユースケースに対して、複数のML実験を作成するために再利用できます。

最終更新日 2026-03-05 11:43:24 +0530 IST