お知らせ:

当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データパイプラインの作成

必要なデータセットのアップロードが完了したので、次にデータセットのデータパイプラインを作成します。

  1. 左メニューのDatasetsコンポーネントに移動し、Cancer_detection_Aデータセットをクリックします。 all-datasets

  2. データパイプラインの詳細ページが表示されます。Create Pipelineをクリックします。 create-data-pipeline

  3. パイプライン名に「Pipeline_A」と入力し、Create Pipelineをクリックします。 enter-pipeline-name

以下のスクリーンショットに示すように、Pipeline Builderインターフェースが開きます。

pipeline-interface

データセットのクリーニング、精製、変換を行い、データパイプラインを実行するために、以下の一連のデータ前処理操作を実行します。これらの操作はそれぞれ、パイプラインの構築に使用される個別のデータノードを含みます。

2つのデータセットがあるため、トレーニングプロセスの前にまずそれらをマージする必要があります。2つのデータセットをマージするには、以下の手順に従ってください。

  1. Operationsメニューで、Data Extractionコンポーネントを展開します。以下のスクリーンショットに示すように、Add DatasetノードをPipeline Builderにドラッグ&ドロップします。Custom Nameセクションでノードのカスタム名を設定できます。ここではCancer dataset 2としています。 add-dataset

  2. 次に、右パネルのAdd Datasetセクションでノードの詳細を設定します。今回のケースでは、Cancer_detection_BデータセットをCancer_detection_Aデータセットとマージする必要があります。Select DatasetドロップダウンからCancer_detection_Bを選択し、Saveをクリックします。

  3. Data Transformationコンポーネントを展開し、UnionノードをPipeline Builderにドラッグ&ドロップします。以下のスクリーンショットに示すように、2つのノード間のリンクを結合してノード間の接続を作成します。 union-node

  4. 右パネルのUnionセクションで、Drop Duplicate Recordsを選択し、Saveをクリックします。

データセットの結合後、マージされたデータセットからトレーニングに必要なフィールドを選択する必要があります。

  1. OperationsメニューのData Cleaningコンポーネントを展開します。**Select/Drop**ノードをPipeline Builderにドラッグ&ドロップし、Unionノードと接続します。 select-node

  2. 右パネルのSelect/Dropセクションで、「patient_id」、「patient_name」、「_c33」列を選択し、操作として「Drop」を選択してマージされたデータセットからこれらの列を削除し、Saveをクリックします。今回のケースでは、これらの列は汎用的なもので、さらなるトレーニングに必要ないため削除します。

データセットの列でデータ型が一致しない場合、Type conversionノードを使用してデータを適切な型に変換します。パイプライン詳細ページのPreviewタブで列とそのデータ型を確認できます。

このデータセットでは、「texture_mean」、「radius_mean」、「perimeter_mean」列に小数値が含まれていますが、String型として格納されています。変換プロセスを実行するには、以下の手順に従ってください。

  1. OperationsメニューのData Transformationコンポーネントを展開します。以下のスクリーンショットに示すように、Type ConversionノードをPipeline Builderにドラッグ&ドロップし、Select/Dropノードと接続します。 type-conversion-node

  2. 右パネルのType Conversionセクションで、列としてtexture_meanを選択し、Convert To Type入力をドロップダウンメニューからDecimal(16)に設定します。エラーが発生した場合に備えて、ThrowまたはNullifyを選択します。同様に“+ Add”ボタンをクリックして、「radius_mean」と「perimeter_mean」をTextから**Decimal(16)**に型変換します。 type-conversion-node

  3. Saveをクリックします。

データ前処理の一環として、データセットの列に欠損値がないかを確認し、それらを補完する必要があります。この操作の実行にはFill Columnsノードを使用します。

  1. OperationsメニューのData Cleaningコンポーネントを展開します。以下のスクリーンショットに示すように、Fill ColumnsノードをPipeline Builderにドラッグ&ドロップし、Type Conversionノードと接続します。 fill-columns-node

  2. Show only the columns with missing valuesを有効にして空のレコードがある列のみを選択し、カスタム値で補完する列として「concavity_se」と「area_worst」を選択し、Fill with入力を「Mean」に設定してSaveをクリックします。これにより、列データの空の値がその列の平均値で補完されます。 fill-columns-select

これで、このチュートリアルに必要なノードの設定が完了しました。最後に、最後に設定したノード(Fill Columns)とDestinationノードを接続します。

Executeをクリックします。

execute-pipeline

データパイプラインの実行が開始され、以下のスクリーンショットに示すように、パイプライン詳細ページに実行ステータスが表示されます。パイプラインの実行が完了すると、実行ステータスに「Success」と表示されます。

success-status

Execution Statsをクリックすると、各実行ステージの詳細を確認できます。

execution-status

これで、MLモデルを開発するためのデータセットの準備が完了しました。次のセクションでは、MLパイプラインの作成について詳しく説明します。

Note : データパイプラインは、Catalystプロジェクト内のさまざまなユースケースに対して、複数のML実験を作成するために再利用できます。

最終更新日 2026-02-23 18:09:41 +0530 IST