欠損値補完

欠損値補完は、データセット内の欠損データを代替値で置き換えることにより、データセットのデータ/情報の大部分を保持するために使用される技術です。

KNN欠損値補完

この補完は、k近傍法を利用して、データセット内の欠損値をトレーニングセットで見つかったパラメータn_neighborsの最近傍の平均値で置き換えます。デフォルトでは、n_neigboursパラメータは5に設定され、k近傍を見つけるためにユークリッド距離メトリックが使用されます。
MissForest欠損値補完

最初に平均値/最頻値を使用してすべての欠損データを補完します。その後、欠損値を含む各変数について、観測された部分でランダムフォレストモデルをトレーニングし、欠損部分を予測します。
平均値補完

平均値補完は、データセット全体のその特徴量の平均値でnull値を置き換えます。
中央値補完

中央値補完は、データセット全体のその特徴量の中央値でnull値を置き換えます。
最頻値補完

最頻値補完は、データセット全体のその特徴量の最頻値でnull値を置き換えます。
Group-By補完

Group-by補完は、null値を置き換えるために以下の3つの入力を受け取ります。
- 補完対象カラム: null値を含み、置き換えが必要なカラムです。
- Group-Byカラム: null値を置き換えるための値を計算する際にグループ化するカラムです。
- 集約関数: 使用する平均値、中央値、最小値、最大値などの集約関数です。
上記の入力を使用して、Group-By補完はGroup-Byカラムをグループ化して必要な集約値を求め、データセット内のnull値をそれらの集約値で埋めます。

最終更新日 2026-03-05 11:43:24 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit

欠損値補完

KNN欠損値補完

MissForest欠損値補完

平均値補完

中央値補完

最頻値補完

Group-By補完