MLパイプラインの作成

# MLパイプラインの作成

予測モデルを構築するために、前処理済みのデータセットをMLパイプラインビルダーで使用します。MLパイプライン構築の最初のステップは、予測対象である**ターゲット列**を選択することです。

MLパイプラインを作成するには、まず**Pipelines**コンポーネントに移動し、Create Pipelineオプションをクリックします。

表示されるポップアップで、パイプライン名を入力します。ここではパイプライン名を**Churn Prediction**、モデル名を**Churn Prediction Model**とします。次に、適切なデータセットとターゲットの列名を選択します。

データパイプラインの構築用に選択したソースデータセットを選択する必要があります。前処理済みのデータはソースデータセットに反映されるためです。今回のケースでは、前処理とクリーニング用に選択した**Churn_1**データセットをインポートし、ターゲットは**churn_risk_score**という列名です。

1. ### カテゴリ列のエンコーディング
 エンコーダーは、機械学習アルゴリズムが効果的に処理できるように、カテゴリデータや非数値データを数値形式に変換するために、さまざまなデータ前処理や機械学習タスクで使用されます。
 - #### 順序エンコーディング
 ここでは、順序エンコーディングを使用して以下のカテゴリ特徴量をエンコードします：「**membership_category**」、「**preferred_offer_types**」、「**medium_of_operation**」、「**internet_option**」、「**gender**」、「**used_special_discount**」、「**past_complaints**」、「**complaint_status**」、「**feedback**」。順序に基づいてカテゴリに整数を割り当てることで、機械学習アルゴリズムがデータの順序性を捉えることができます。QuickMLでOrdinal Encoder [ノード](/ja/quickml/help/operations-in-quickml/encoding/#ordinal-encoder)を使用するには、**ML operations**に移動し、->**Encoding**コンポーネントをクリックし、->**Ordinal Encoder**を選択して、選択したカテゴリ列を数値列に変換します。

- #### One-Hotエンコーディング
      One-Hotエンコーディングは、データセット内のカテゴリ列に対して適用されるのが一般的で、各カテゴリは個別のクラスまたはグループを表します。この手法では、一意のカテゴリごとに新しいバイナリ列が作成されるため、通常はデータセットの次元数が増加します。バイナリ列の数は、一意のカテゴリ数から1を引いた数に等しくなります。これは、他のすべてのカテゴリの不在から最後のカテゴリの存在を推測できるためです。

ここでは、One-Hot Encoderノードを使用して以下の列をエンコードします：「**region_category**」、「**joined_through_referral**」、「**offer_application_preference**」。QuickMLでOne-Hot Encoderノードを使用するには、**ML operations**に移動し、->**Encoding**コンポーネントを選択し、->**One-Hot Encoder**を選択して、選択したカテゴリ列を数値列に変換します。
 
 
2. ### 特徴量エンジニアリング：
 特徴量選択は、モデルの学習と分析に使用するために、データセットから最も関連性が高く重要な特徴量（変数または列）のサブセットを選択するプロセスです。特徴量選択の目的は、機械学習モデルの性能、効率、解釈性を向上させることです。特徴量選択は、高次元データセットを扱う場合に特に重要であり、過学習の抑制、計算時間の短縮、モデルの解釈性向上に役立ちます。

ここでは、**冗長性除去**特徴量選択手法を使用して特徴量を生成します。この手法は、データセットから冗長な特徴量を特定して削除します。冗長な特徴量は重複した情報や高い相関を持つ情報を提供するため、機械学習モデルの性能向上には大きく貢献しません。**Redundancy Elimination**ノードを選択するには、**ML operations**に移動し、->**Feature Engineering**をクリックし、->**Feature Selection**を選択し、->**Redundancy Elimination**を選択します。

3. ### MLアルゴリズム：
	MLパイプライン構築の次のステップは、前処理済みデータの学習に適切なアルゴリズムを選択することです。ここでは、XGBoost分類アルゴリズムを使用してデータを学習させます。

**XGBoost**（Extreme Gradient Boosting）は、分類タスクでよく使用される人気のある強力な機械学習アルゴリズムです。複数の決定木の予測を組み合わせて強力な予測モデルを作成するアンサンブル学習手法です。XGBoostは、速度、スケーラビリティ、複雑なデータセットの処理能力で知られています。\
 QuickMLのMLパイプラインビルダーで、**ML operations**から該当するXGBoost Classificationノードをドラッグ＆ドロップし、->**Algorithm**を選択し、->**Classification**をクリックし、->XGBoost Classification**を選択することで、XGBoost分類手法を素早く構築できます。\
 特定のデータセットに対してモデルが最適化されるようにチューニングパラメータを調整することもできますが、今回のケースではデフォルト設定のままで進めます。すべての設定が完了したら、パイプラインを保存して、さらなるテストとデプロイに備えます。
 
アルゴリズムノードをドラッグ＆ドロップすると、その終端ノードが自動的にDestinationノードに接続されます。Saveをクリックしてパイプラインを保存し、パイプラインビルダーページの右上にあるExecuteボタンをクリックしてパイプラインを実行します。
以下のページにリダイレクトされ、実行ステータスとともに実行されたパイプラインが表示されます。パイプラインの実行が成功したことが確認できます。
 
Execution Statsをクリックすると、モデル実行の各ステージにおけるコンピュート詳細を確認できます。
 
MLワークフローが正常に完了すると、予測モデルが作成され、Modelセクション（**Churn Prediction model**をクリック）で確認できます。
 
これにより、データに基づいて予測を行う際のモデルの効率と性能に関する有用な情報が得られます。

予測モデルを構築するために、前処理済みのデータセットをMLパイプラインビルダーで使用します。MLパイプライン構築の最初のステップは、予測対象であるターゲット列を選択することです。

MLパイプラインを作成するには、まずPipelinesコンポーネントに移動し、Create Pipelineオプションをクリックします。

表示されるポップアップで、パイプライン名を入力します。ここではパイプライン名をChurn Prediction、モデル名をChurn Prediction Modelとします。次に、適切なデータセットとターゲットの列名を選択します。

データパイプラインの構築用に選択したソースデータセットを選択する必要があります。前処理済みのデータはソースデータセットに反映されるためです。今回のケースでは、前処理とクリーニング用に選択したChurn_1データセットをインポートし、ターゲットはchurn_risk_scoreという列名です。

カテゴリ列のエンコーディング

エンコーダーは、機械学習アルゴリズムが効果的に処理できるように、カテゴリデータや非数値データを数値形式に変換するために、さまざまなデータ前処理や機械学習タスクで使用されます。
- 順序エンコーディング
  
  ここでは、順序エンコーディングを使用して以下のカテゴリ特徴量をエンコードします：「membership_category」、「preferred_offer_types」、「medium_of_operation」、「internet_option」、「gender」、「used_special_discount」、「past_complaints」、「complaint_status」、「feedback」。順序に基づいてカテゴリに整数を割り当てることで、機械学習アルゴリズムがデータの順序性を捉えることができます。QuickMLでOrdinal Encoder ノードを使用するには、ML operationsに移動し、->Encodingコンポーネントをクリックし、->Ordinal Encoderを選択して、選択したカテゴリ列を数値列に変換します。
- One-Hotエンコーディング
  
  One-Hotエンコーディングは、データセット内のカテゴリ列に対して適用されるのが一般的で、各カテゴリは個別のクラスまたはグループを表します。この手法では、一意のカテゴリごとに新しいバイナリ列が作成されるため、通常はデータセットの次元数が増加します。バイナリ列の数は、一意のカテゴリ数から1を引いた数に等しくなります。これは、他のすべてのカテゴリの不在から最後のカテゴリの存在を推測できるためです。
  
  ここでは、One-Hot Encoderノードを使用して以下の列をエンコードします：「region_category」、「joined_through_referral」、「offer_application_preference」。QuickMLでOne-Hot Encoderノードを使用するには、ML operationsに移動し、->Encodingコンポーネントを選択し、->One-Hot Encoderを選択して、選択したカテゴリ列を数値列に変換します。
特徴量エンジニアリング：

特徴量選択は、モデルの学習と分析に使用するために、データセットから最も関連性が高く重要な特徴量（変数または列）のサブセットを選択するプロセスです。特徴量選択の目的は、機械学習モデルの性能、効率、解釈性を向上させることです。特徴量選択は、高次元データセットを扱う場合に特に重要であり、過学習の抑制、計算時間の短縮、モデルの解釈性向上に役立ちます。

ここでは、冗長性除去特徴量選択手法を使用して特徴量を生成します。この手法は、データセットから冗長な特徴量を特定して削除します。冗長な特徴量は重複した情報や高い相関を持つ情報を提供するため、機械学習モデルの性能向上には大きく貢献しません。Redundancy Eliminationノードを選択するには、ML operationsに移動し、->Feature Engineeringをクリックし、->Feature Selectionを選択し、->Redundancy Eliminationを選択します。
MLアルゴリズム：

MLパイプライン構築の次のステップは、前処理済みデータの学習に適切なアルゴリズムを選択することです。ここでは、XGBoost分類アルゴリズムを使用してデータを学習させます。

XGBoost（Extreme Gradient Boosting）は、分類タスクでよく使用される人気のある強力な機械学習アルゴリズムです。複数の決定木の予測を組み合わせて強力な予測モデルを作成するアンサンブル学習手法です。XGBoostは、速度、スケーラビリティ、複雑なデータセットの処理能力で知られています。
QuickMLのMLパイプラインビルダーで、ML operationsから該当するXGBoost Classificationノードをドラッグ＆ドロップし、->Algorithmを選択し、->Classificationをクリックし、->XGBoost Classification**を選択することで、XGBoost分類手法を素早く構築できます。
特定のデータセットに対してモデルが最適化されるようにチューニングパラメータを調整することもできますが、今回のケースではデフォルト設定のままで進めます。すべての設定が完了したら、パイプラインを保存して、さらなるテストとデプロイに備えます。
アルゴリズムノードをドラッグ＆ドロップすると、その終端ノードが自動的にDestinationノードに接続されます。Saveをクリックしてパイプラインを保存し、パイプラインビルダーページの右上にあるExecuteボタンをクリックしてパイプラインを実行します。以下のページにリダイレクトされ、実行ステータスとともに実行されたパイプラインが表示されます。パイプラインの実行が成功したことが確認できます。
Execution Statsをクリックすると、モデル実行の各ステージにおけるコンピュート詳細を確認できます。
MLワークフローが正常に完了すると、予測モデルが作成され、Modelセクション（Churn Prediction modelをクリック）で確認できます。
これにより、データに基づいて予測を行う際のモデルの効率と性能に関する有用な情報が得られます。

最終更新日 2026-03-05 11:43:24 +0530 IST

QuickMLのMLアルゴリズム QuickMLでの操作