データパイプラインの作成

# データパイプラインの作成

必要なデータセットのアップロードが完了したので、次にデータセットの{{%link href="/ja/quickml/help/pipeline-builder-interface/walkthrough/#pipeline" %}}データパイプライン{{%/link%}}を作成します。

1. 左メニューの{{%bold%}}Datasets{{%/bold%}}コンポーネントに移動し、{{%bold%}}Cancer_detection_A{{%/bold%}}データセットをクリックします。

2. データパイプラインの詳細ページが表示されます。{{%bold%}}Create Pipeline{{%/bold%}}をクリックします。

3. パイプライン名に「**Pipeline_A**」と入力し、{{%bold%}}Create Pipeline{{%/bold%}}をクリックします。

以下のスクリーンショットに示すように、{{%link href="/ja/quickml/help/pipeline-builder-interface/walkthrough/#pipeline-builder-interface-1" %}}Pipeline Builderインターフェース{{%/link%}}が開きます。

データセットのクリーニング、精製、変換を行い、データパイプラインを実行するために、以下の一連のデータ前処理操作を実行します。これらの操作はそれぞれ、パイプラインの構築に使用される個別の{{%link href="/ja/quickml/help/data-preprocessing/data-cleaning/" %}}データノード{{%/link%}}を含みます。

# データセットの結合

2つのデータセットがあるため、トレーニングプロセスの前にまずそれらをマージする必要があります。2つのデータセットをマージするには、以下の手順に従ってください。

1. **Operations**メニューで、**Data Extraction**コンポーネントを展開します。以下のスクリーンショットに示すように、**Add Dataset**ノードをPipeline Builderにドラッグ＆ドロップします。{{%badge%}}Custom Name{{%/badge%}}セクションでノードのカスタム名を設定できます。ここでは**Cancer dataset 2**としています。

2. 次に、右パネルのAdd Datasetセクションでノードの詳細を設定します。今回のケースでは、**Cancer_detection_B**データセットを**Cancer_detection_A**データセットとマージする必要があります。**Select Dataset**ドロップダウンから**Cancer_detection_B**を選択し、**Save**をクリックします。

3. **Data Transformation**コンポーネントを展開し、{{%link href="/ja/quickml/help/data-preprocessing/data-transformation/#union" %}}Union{{%/link%}}ノードをPipeline Builderにドラッグ＆ドロップします。以下のスクリーンショットに示すように、2つのノード間のリンクを結合してノード間の接続を作成します。

4. 右パネルの**Union**セクションで、**Drop Duplicate Records**を選択し、**Save**をクリックします。

# モデルトレーニング用フィールドの選択

データセットの結合後、マージされたデータセットからトレーニングに必要なフィールドを選択する必要があります。

1. Operationsメニューの**Data Cleaning**コンポーネントを展開します。**{{%link href="/ja/quickml/help/data-preprocessing/data-cleaning#select-or-drop" %}}Select/Drop{{%/link%}}**ノードをPipeline Builderにドラッグ＆ドロップし、**Union**ノードと接続します。

2. 右パネルの**Select/Drop**セクションで、「**patient_id**」、「**patient_name**」、「**_c33**」列を選択し、操作として「**Drop**」を選択してマージされたデータセットからこれらの列を削除し、**Save**をクリックします。今回のケースでは、これらの列は汎用的なもので、さらなるトレーニングに必要ないため削除します。

# データ型の変換

データセットの列でデータ型が一致しない場合、{{%link href="/ja/quickml/help/data-preprocessing/data-transformation/#type-conversion" %}}Type conversionノード{{%/link%}}を使用してデータを適切な型に変換します。パイプライン詳細ページの**Preview**タブで列とそのデータ型を確認できます。

このデータセットでは、「**texture_mean**」、「**radius_mean**」、「**perimeter_mean**」列に小数値が含まれていますが、**String**型として格納されています。変換プロセスを実行するには、以下の手順に従ってください。

1. **Operations**メニューの**Data Transformation**コンポーネントを展開します。以下のスクリーンショットに示すように、**Type Conversion**ノードをPipeline Builderにドラッグ＆ドロップし、**Select/Drop**ノードと接続します。

2. 右パネルの[Type Conversion](/ja/quickml/help/data-preprocessing/data-transformation/#type-conversion)セクションで、列として**texture_mean**を選択し、**Convert To Type**入力をドロップダウンメニューから**Decimal(16)**に設定します。エラーが発生した場合に備えて、**Throw**または**Nullify**を選択します。同様に{{%badge%}}"+ Add"{{%/badge%}}ボタンをクリックして、「**radius_mean**」と「**perimeter_mean**」を**Text**から**Decimal(16)**に型変換します。

3. {{%badge%}}Save{{%/badge%}}をクリックします。

# 欠損値の処理

データ前処理の一環として、データセットの列に欠損値がないかを確認し、それらを補完する必要があります。この操作の実行にはFill Columnsノードを使用します。

1. Operationsメニューの**Data Cleaning**コンポーネントを展開します。以下のスクリーンショットに示すように、**Fill Columns**ノードをPipeline Builderにドラッグ＆ドロップし、**Type Conversion**ノードと接続します。

2. {{%badge%}}Show only the columns with missing values{{%/badge%}}を有効にして空のレコードがある列のみを選択し、カスタム値で補完する列として「**concavity_se**」と「**area_worst**」を選択し、**Fill with**入力を「**Mean**」に設定して{{%badge%}}Save{{%/badge%}}をクリックします。これにより、列データの空の値がその列の平均値で補完されます。

これで、このチュートリアルに必要なノードの設定が完了しました。最後に、最後に設定したノード（**Fill Columns**）と**Destination**ノードを接続します。

{{%badge%}}Execute{{%/badge%}}をクリックします。

データパイプラインの実行が開始され、以下のスクリーンショットに示すように、パイプライン詳細ページに実行ステータスが表示されます。パイプラインの実行が完了すると、実行ステータスに「**Success**」と表示されます。

{{%badge%}}Execution Stats{{%/badge%}}をクリックすると、各実行ステージの詳細を確認できます。

これで、MLモデルを開発するためのデータセットの準備が完了しました。次のセクションでは、MLパイプラインの作成について詳しく説明します。

{{%note%}}{{%bold%}}Note :{{%/bold%}} データパイプラインは、Catalystプロジェクト内のさまざまなユースケースに対して、複数のML実験を作成するために再利用できます。{{%/note%}}

必要なデータセットのアップロードが完了したので、次にデータセットのデータパイプラインを作成します。

左メニューのDatasetsコンポーネントに移動し、Cancer_detection_Aデータセットをクリックします。
データパイプラインの詳細ページが表示されます。Create Pipelineをクリックします。
パイプライン名に「Pipeline_A」と入力し、Create Pipelineをクリックします。

以下のスクリーンショットに示すように、Pipeline Builderインターフェースが開きます。

データセットのクリーニング、精製、変換を行い、データパイプラインを実行するために、以下の一連のデータ前処理操作を実行します。これらの操作はそれぞれ、パイプラインの構築に使用される個別のデータノードを含みます。

Operationsメニューで、Data Extractionコンポーネントを展開します。以下のスクリーンショットに示すように、Add DatasetノードをPipeline Builderにドラッグ＆ドロップします。Custom Nameセクションでノードのカスタム名を設定できます。ここではCancer dataset 2としています。
次に、右パネルのAdd Datasetセクションでノードの詳細を設定します。今回のケースでは、Cancer_detection_BデータセットをCancer_detection_Aデータセットとマージする必要があります。Select DatasetドロップダウンからCancer_detection_Bを選択し、Saveをクリックします。
Data Transformationコンポーネントを展開し、UnionノードをPipeline Builderにドラッグ＆ドロップします。以下のスクリーンショットに示すように、2つのノード間のリンクを結合してノード間の接続を作成します。
右パネルのUnionセクションで、Drop Duplicate Recordsを選択し、Saveをクリックします。

データセットの結合後、マージされたデータセットからトレーニングに必要なフィールドを選択する必要があります。

OperationsメニューのData Cleaningコンポーネントを展開します。**Select/Drop**ノードをPipeline Builderにドラッグ＆ドロップし、Unionノードと接続します。
右パネルのSelect/Dropセクションで、「patient_id」、「patient_name」、「_c33」列を選択し、操作として「Drop」を選択してマージされたデータセットからこれらの列を削除し、Saveをクリックします。今回のケースでは、これらの列は汎用的なもので、さらなるトレーニングに必要ないため削除します。

データセットの列でデータ型が一致しない場合、Type conversionノードを使用してデータを適切な型に変換します。パイプライン詳細ページのPreviewタブで列とそのデータ型を確認できます。

このデータセットでは、「texture_mean」、「radius_mean」、「perimeter_mean」列に小数値が含まれていますが、String型として格納されています。変換プロセスを実行するには、以下の手順に従ってください。

OperationsメニューのData Transformationコンポーネントを展開します。以下のスクリーンショットに示すように、Type ConversionノードをPipeline Builderにドラッグ＆ドロップし、Select/Dropノードと接続します。
右パネルのType Conversionセクションで、列としてtexture_meanを選択し、Convert To Type入力をドロップダウンメニューからDecimal(16)に設定します。エラーが発生した場合に備えて、ThrowまたはNullifyを選択します。同様に“+ Add”ボタンをクリックして、「radius_mean」と「perimeter_mean」をTextから**Decimal(16)**に型変換します。
Saveをクリックします。

OperationsメニューのData Cleaningコンポーネントを展開します。以下のスクリーンショットに示すように、Fill ColumnsノードをPipeline Builderにドラッグ＆ドロップし、Type Conversionノードと接続します。
Show only the columns with missing valuesを有効にして空のレコードがある列のみを選択し、カスタム値で補完する列として「concavity_se」と「area_worst」を選択し、Fill with入力を「Mean」に設定してSaveをクリックします。これにより、列データの空の値がその列の平均値で補完されます。

これで、このチュートリアルに必要なノードの設定が完了しました。最後に、最後に設定したノード（Fill Columns）とDestinationノードを接続します。

Executeをクリックします。

データパイプラインの実行が開始され、以下のスクリーンショットに示すように、パイプライン詳細ページに実行ステータスが表示されます。パイプラインの実行が完了すると、実行ステータスに「Success」と表示されます。

Execution Statsをクリックすると、各実行ステージの詳細を確認できます。

これで、MLモデルを開発するためのデータセットの準備が完了しました。次のセクションでは、MLパイプラインの作成について詳しく説明します。

Note : データパイプラインは、Catalystプロジェクト内のさまざまなユースケースに対して、複数のML実験を作成するために再利用できます。

最終更新日 2026-02-23 18:09:41 +0530 IST

Data Cleaning Data Transformation Data Profiler and Viewer