QuickMLにおけるデータ前処理技術

# QuickMLにおけるデータ前処理技術

QuickMLは、主要なデータ前処理技術を3つの主要カテゴリに分けて提供しています。
- **データクリーニング**
- **データ変換**
- **データセット抽出**

以降のスライドに記載されているすべての操作は、パイプライン構築プロセスのステージとして利用でき、ユーザーがより優れた機械学習モデルを作成するのに役立ちます。

# データクリーニング
データクリーニングとは、データセット内の不正確、破損、不適切なフォーマット、重複、または不完全なデータを修正または削除するプロセスです。データが不正確な場合、結果やアルゴリズムは信頼性を欠きます。
1. ### Fill Columns
    特定のカラムの値を、ユーザーが設定した条件に基づいて変更するために使用します。設定で条件が指定されていない場合、そのカラムのすべての値がユーザー指定の値またはメソッドで置き換えられます。\
    **例：**\
       患者の名前、年齢、住所、投票資格などの詳細を含む国の人口データについて、18歳以上のすべての人の投票資格カラムを「yes」として埋めることができます。
2. ### Filter
    設定で条件を適用して、前処理が必要なデータセットからデータを抽出するために使用します。条件に一致しないデータも前処理に使用できます。\
    **例：**
    -   #### 単一出力フィルター：
        学生データセットで、CSE学科のデータのみが必要な場合、条件をdept=CSEと設定すると、前処理が必要なデータを削減できます。
    -   #### 二重出力フィルター：
        学生データセットの男子と女子のデータを異なるフローで前処理する必要がある場合、設定の**「Show unmatched records as secondary output」**チェックボックスを使用できます。これは、フィルターノードからの不一致データに対して特別な操作やプロセスを実行したい場合に役立ちます。
        ![Double Output Filter](/images/help/quickml/data-preprocessing/Double_Output_Filter.webp)

3. ### Remove duplicates
    データセット内の重複行を削除するために使用します。重複行の削除方法も制御できます。\
    **例：**\
        学生IDが101の重複行がインデックス1、5、7に5つある学生データセットの場合。
        保持の優先オプション：\
            &nbsp;&nbsp;&nbsp;&nbsp;**First** - 出力データセットにはインデックス1の行のみが残り、インデックス5と7の行は削除されます。\
            &nbsp;&nbsp;&nbsp;&nbsp;**Last** - 出力データセットにはインデックス7の行のみが残り、インデックス1と5の行は削除されます。\
            &nbsp;&nbsp;&nbsp;&nbsp;**None** - 出力データセットには重複行がなくなり、インデックス1、5、7の行はすべて削除されます。

4. ### Select or Drop
    データセットのカラムの選択またはドロップの両方を行うために使用します。データセットから2つのカラムのみが必要な場合は、ドロップダウンから必要な2つのカラムを選択し、select操作を選択します。カラムのドロップには、drop操作を選択します。

QuickMLは、主要なデータ前処理技術を3つの主要カテゴリに分けて提供しています。

データクリーニング
データ変換
データセット抽出

データクリーニングとは、データセット内の不正確、破損、不適切なフォーマット、重複、または不完全なデータを修正または削除するプロセスです。データが不正確な場合、結果やアルゴリズムは信頼性を欠きます。

Fill Columns

特定のカラムの値を、ユーザーが設定した条件に基づいて変更するために使用します。設定で条件が指定されていない場合、そのカラムのすべての値がユーザー指定の値またはメソッドで置き換えられます。
例：
患者の名前、年齢、住所、投票資格などの詳細を含む国の人口データについて、18歳以上のすべての人の投票資格カラムを「yes」として埋めることができます。
Filter

設定で条件を適用して、前処理が必要なデータセットからデータを抽出するために使用します。条件に一致しないデータも前処理に使用できます。
例：
- 単一出力フィルター：
  学生データセットで、CSE学科のデータのみが必要な場合、条件をdept=CSEと設定すると、前処理が必要なデータを削減できます。
- 二重出力フィルター：
  学生データセットの男子と女子のデータを異なるフローで前処理する必要がある場合、設定の**「Show unmatched records as secondary output」**チェックボックスを使用できます。これは、フィルターノードからの不一致データに対して特別な操作やプロセスを実行したい場合に役立ちます。
Remove duplicates

データセット内の重複行を削除するために使用します。重複行の削除方法も制御できます。
例：
学生IDが101の重複行がインデックス1、5、7に5つある学生データセットの場合。保持の優先オプション：
    First - 出力データセットにはインデックス1の行のみが残り、インデックス5と7の行は削除されます。
    Last - 出力データセットにはインデックス7の行のみが残り、インデックス1と5の行は削除されます。
    None - 出力データセットには重複行がなくなり、インデックス1、5、7の行はすべて削除されます。
Select or Drop

データセットのカラムの選択またはドロップの両方を行うために使用します。データセットから2つのカラムのみが必要な場合は、ドロップダウンから必要な2つのカラムを選択し、select操作を選択します。カラムのドロップには、drop操作を選択します。

最終更新日 2026-03-05 11:43:24 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit