お知らせ:

当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

欠損値補完

欠損値補完は、データセット内の欠損データを代替値で置き換えることにより、データセットのデータ/情報の大部分を保持するために使用される技術です。

  1. KNN欠損値補完

    この補完は、k近傍法を利用して、データセット内の欠損値をトレーニングセットで見つかったパラメータn_neighborsの最近傍の平均値で置き換えます。デフォルトでは、n_neigboursパラメータは5に設定され、k近傍を見つけるためにユークリッド距離メトリックが使用されます。

  2. MissForest欠損値補完

    最初に平均値/最頻値を使用してすべての欠損データを補完します。その後、欠損値を含む各変数について、観測された部分でランダムフォレストモデルをトレーニングし、欠損部分を予測します。

  3. 平均値補完

    平均値補完は、データセット全体のその特徴量の平均値でnull値を置き換えます。

  4. 中央値補完

    中央値補完は、データセット全体のその特徴量の中央値でnull値を置き換えます。

  5. 最頻値補完

    最頻値補完は、データセット全体のその特徴量の最頻値でnull値を置き換えます。

  6. Group-By補完

    Group-by補完は、null値を置き換えるために以下の3つの入力を受け取ります。

    • 補完対象カラム: null値を含み、置き換えが必要なカラムです。
    • Group-Byカラム: null値を置き換えるための値を計算する際にグループ化するカラムです。
    • 集約関数: 使用する平均値、中央値、最小値、最大値などの集約関数です。

    上記の入力を使用して、Group-By補完はGroup-Byカラムをグループ化して必要な集約値を求め、データセット内のnull値をそれらの集約値で埋めます。

最終更新日 2026-03-05 11:43:24 +0530 IST