QuickMLの操作

# QuickMLの操作
データ前処理は、機械がデータを解析しやすいようにデータを変換またはエンコードするステップです。つまり、データの特徴量がアルゴリズムによって容易に解釈できるようになります。
1. **エンコーディング**
2. **特徴量エンジニアリング**
3. **欠損値補完**
4. **正規化**
5. **変換器**

# エンコーディング
エンコーディングは、カテゴリ変数（離散値）を数値（連続値）に変換する技術であり、機械学習モデルに容易に適合させることができます。
1. ### 順序エンコーダー
    順序エンコーディングは、各ユニークなラベルを整数値にマッピングします。このタイプのエンコーディングは、カテゴリ間に既知の関係がある場合にのみ適切です。データが順序付けられている場合、順序エンコーディングを使用できます。\
    **例：**\
    温度値のLow、Normal、Highの場合、順序エンコーディングを使用できます。エンコード後のデータは0,1,2のようになります（0-->低温,2-->高温）。
    順序エンコーディングは、クラスを表すために単一の整数カラムを使用します。オプションのマッピング辞書を渡すことができます。この場合、クラス自体に何らかの真の順序があるという知識を使用します。そうでない場合、クラスには真の順序がないと想定され、整数がランダムに選択されます。

2. ### One-Hotエンコーディング
    このカテゴリデータエンコーディング技術は、特徴量が名義的（順序がない）な場合に使用します。One-Hotエンコーディングでは、カテゴリ特徴量の各レベルに対して新しい変数を作成します。各カテゴリは0または1を含むバイナリ変数にマッピングされます。ここで、0はそのカテゴリの不在を表し、1はそのカテゴリの存在を表します。
    カテゴリ特徴量が順序的（順序付きデータ）でなく、カテゴリ特徴量のカテゴリ数が少ない場合、One-Hotエンコーディングを効果的に適用できます。
    
    **入力例：** 
    <table class="content-table" style="width:200px;">
    <thead>
    <tr>
    <th style="text-align:center">color</th>
    </tr>
    </thead>
    <tbody>
    <tr>
    <td style="text-align:center">blue</td>
    </tr>
    <tr>
    <td style="text-align:center">red</td>
    </tr>
    <tr>
    <td style="text-align:center">green</td>
    </tr>
    </tbody>
    </table>

**出力例：** 
    <table class="content-table" style="width:500px;">
    <thead>
    <tr>
    <th style="text-align:center">color_blue</th>
    <th style="text-align:center">color_red</th>
    <th style="text-align:center">color_green</th>
    </tr>
    </thead>
    <tbody>
    <tr>
    <td style="text-align:center">1</td>
    <td style="text-align:center">0</td>
    <td style="text-align:center">0</td>
    </tr>
    <tr>
    <td style="text-align:center">0</td>
    <td style="text-align:center">1</td>
    <td style="text-align:center">0</td>
    </tr>
    <tr>
    <td style="text-align:center">0</td>
    <td style="text-align:center">0</td>
    <td style="text-align:center">1</td>
    </tr>
    </tbody>
    </table>
3. ### JamesSteinエンコーダー
    特徴量の値に対して、James-Stein推定量は以下の加重平均を返します：
    1. 観測された特徴量の値に対するターゲットの平均値。
    2. ターゲットの全体平均値（特徴量の値に関係なく）。
4. ### ラベルエンコーディング
    カテゴリのターゲットカラムを、カテゴリ変数の各カテゴリに一意の整数または数値ラベルを割り当てることで数値カラムに変換するために使用されます。エンコーディングはカテゴリ変数に順序を導入するため、すべてのケースで有用とは限りません。カテゴリ間に固有の順序やランキングがある順序変数に適しています。
5. ### LeaveOneOutエンコーダー
    LeaveOneOutエンコーディングは、問題のカテゴリ特徴量変数に対して同じ値を含むすべてのレコードのターゲット変数の平均を本質的に計算します。エンコーディングアルゴリズムはトレーニングデータセットとテストデータセットで若干異なります。トレーニングデータセットでは、対象のレコードが除外されます（そのため「Leave One Out」と呼ばれます）。
6. ### ターゲットエンコーディング
    ターゲットエンコーディングでは、各カテゴリのターゲット変数の平均を計算し、カテゴリ変数をその平均値で置き換えます。カテゴリのターゲット変数の場合、ターゲットの事後確率が各カテゴリを置き換えます。\
    ターゲットエンコーディングは、カテゴリの値をターゲット変数の平均で置き換えるプロセスです。非カテゴリのカラムはターゲットエンコーダーモデルによって自動的に除外されます。
7. ### カウントエンコーダー
    カウントエンコーディングは、トレーニングセットで計算されたカウントでカテゴリを置き換えることに基づいています。一部の変数でカウントが同じになる可能性があり、2つのカテゴリが同じ値としてエンコードされる衝突が発生する場合があります。カウントエンコーダーは、カテゴリのカウントが同じでない場合に使用できます。
    <table class="content-table" style="width:600px;">
    <tr>
    <th style="text-align:center">入力例</th>
    <td style="text-align:center">10</td>
    <td style="text-align:center">10</td>
    <td style="text-align:center">20</td>
    <td style="text-align:center">30</td>
    <td style="text-align:center">30</td>
    <td style="text-align:center">30</td>
    </tr>
    <th style="text-align:center">出力例</th>
    <td style="text-align:center">2</td>
    <td style="text-align:center">2</td>
    <td style="text-align:center">1</td>
    <td style="text-align:center">3</td>
    <td style="text-align:center">3</td>
    <td style="text-align:center">3</td>
    </tr>
    <tbody>
    </tbody>
    </table>

8. ### 後方差分エンコーディング
    後方差分コーディングでは、あるレベルの従属変数の平均が、前のレベルの従属変数の平均と比較されます。このタイプのコーディングは、名義変数または順序変数に有用な場合があります。
9. ### ヘルマートエンコーディング
    あるレベルの従属変数の平均が、それ以前のすべてのレベルの従属変数の平均と比較されます。この比較は、人種などの名義変数にはあまり意味がありません。
10. ### Catboostエンコーディング
    Catboostはターゲットベースのカテゴリエンコーダーです。カテゴリ特徴量を、トレーニングデータセット内のそのカテゴリに対応するターゲットの平均値とデータセット全体のターゲット確率を組み合わせた値で置き換えます。ただし、これはターゲットリーケージを導入します。ターゲットを予測するためにターゲットが使用されるためです。

データ前処理は、機械がデータを解析しやすいようにデータを変換またはエンコードするステップです。つまり、データの特徴量がアルゴリズムによって容易に解釈できるようになります。

エンコーディング
特徴量エンジニアリング
欠損値補完
正規化
変換器

エンコーディングは、カテゴリ変数（離散値）を数値（連続値）に変換する技術であり、機械学習モデルに容易に適合させることができます。

順序エンコーダー

順序エンコーディングは、各ユニークなラベルを整数値にマッピングします。このタイプのエンコーディングは、カテゴリ間に既知の関係がある場合にのみ適切です。データが順序付けられている場合、順序エンコーディングを使用できます。
例：
温度値のLow、Normal、Highの場合、順序エンコーディングを使用できます。エンコード後のデータは0,1,2のようになります（0–>低温,2–>高温）。順序エンコーディングは、クラスを表すために単一の整数カラムを使用します。オプションのマッピング辞書を渡すことができます。この場合、クラス自体に何らかの真の順序があるという知識を使用します。そうでない場合、クラスには真の順序がないと想定され、整数がランダムに選択されます。
One-Hotエンコーディング

このカテゴリデータエンコーディング技術は、特徴量が名義的（順序がない）な場合に使用します。One-Hotエンコーディングでは、カテゴリ特徴量の各レベルに対して新しい変数を作成します。各カテゴリは0または1を含むバイナリ変数にマッピングされます。ここで、0はそのカテゴリの不在を表し、1はそのカテゴリの存在を表します。カテゴリ特徴量が順序的（順序付きデータ）でなく、カテゴリ特徴量のカテゴリ数が少ない場合、One-Hotエンコーディングを効果的に適用できます。

入力例：

color

blue

red

green

出力例：

color_blue color_red color_green

1 0 0

0 1 0

0 0 1
JamesSteinエンコーダー

特徴量の値に対して、James-Stein推定量は以下の加重平均を返します：
1. 観測された特徴量の値に対するターゲットの平均値。
2. ターゲットの全体平均値（特徴量の値に関係なく）。
ラベルエンコーディング

カテゴリのターゲットカラムを、カテゴリ変数の各カテゴリに一意の整数または数値ラベルを割り当てることで数値カラムに変換するために使用されます。エンコーディングはカテゴリ変数に順序を導入するため、すべてのケースで有用とは限りません。カテゴリ間に固有の順序やランキングがある順序変数に適しています。
LeaveOneOutエンコーダー

LeaveOneOutエンコーディングは、問題のカテゴリ特徴量変数に対して同じ値を含むすべてのレコードのターゲット変数の平均を本質的に計算します。エンコーディングアルゴリズムはトレーニングデータセットとテストデータセットで若干異なります。トレーニングデータセットでは、対象のレコードが除外されます（そのため「Leave One Out」と呼ばれます）。
ターゲットエンコーディング

ターゲットエンコーディングでは、各カテゴリのターゲット変数の平均を計算し、カテゴリ変数をその平均値で置き換えます。カテゴリのターゲット変数の場合、ターゲットの事後確率が各カテゴリを置き換えます。
ターゲットエンコーディングは、カテゴリの値をターゲット変数の平均で置き換えるプロセスです。非カテゴリのカラムはターゲットエンコーダーモデルによって自動的に除外されます。
カウントエンコーダー

カウントエンコーディングは、トレーニングセットで計算されたカウントでカテゴリを置き換えることに基づいています。一部の変数でカウントが同じになる可能性があり、2つのカテゴリが同じ値としてエンコードされる衝突が発生する場合があります。カウントエンコーダーは、カテゴリのカウントが同じでない場合に使用できます。

入力例 10 10 20 30 30 30

出力例 2 2 1 3 3 3
後方差分エンコーディング

後方差分コーディングでは、あるレベルの従属変数の平均が、前のレベルの従属変数の平均と比較されます。このタイプのコーディングは、名義変数または順序変数に有用な場合があります。
ヘルマートエンコーディング

あるレベルの従属変数の平均が、それ以前のすべてのレベルの従属変数の平均と比較されます。この比較は、人種などの名義変数にはあまり意味がありません。
Catboostエンコーディング

Catboostはターゲットベースのカテゴリエンコーダーです。カテゴリ特徴量を、トレーニングデータセット内のそのカテゴリに対応するターゲットの平均値とデータセット全体のターゲット確率を組み合わせた値で置き換えます。ただし、これはターゲットリーケージを導入します。ターゲットを予測するためにターゲットが使用されるためです。

color
blue
red
green

color_blue	color_red	color_green
1	0	0
0	1	0
0	0	1

入力例	10	10	20	30	30	30
出力例	2	2	1	3	3	3

最終更新日 2026-03-05 11:43:24 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit