欠損値補完
欠損値補完は、データセット内の欠損データを代替値で置き換えることにより、データセットのデータ/情報の大部分を保持するために使用される技術です。
-
KNN欠損値補完
この補完は、k近傍法を利用して、データセット内の欠損値をトレーニングセットで見つかったパラメータn_neighborsの最近傍の平均値で置き換えます。デフォルトでは、n_neigboursパラメータは5に設定され、k近傍を見つけるためにユークリッド距離メトリックが使用されます。
-
MissForest欠損値補完
最初に平均値/最頻値を使用してすべての欠損データを補完します。その後、欠損値を含む各変数について、観測された部分でランダムフォレストモデルをトレーニングし、欠損部分を予測します。
-
平均値補完
平均値補完は、データセット全体のその特徴量の平均値でnull値を置き換えます。
-
中央値補完
中央値補完は、データセット全体のその特徴量の中央値でnull値を置き換えます。
-
最頻値補完
最頻値補完は、データセット全体のその特徴量の最頻値でnull値を置き換えます。
-
Group-By補完
Group-by補完は、null値を置き換えるために以下の3つの入力を受け取ります。
- 補完対象カラム: null値を含み、置き換えが必要なカラムです。
- Group-Byカラム: null値を置き換えるための値を計算する際にグループ化するカラムです。
- 集約関数: 使用する平均値、中央値、最小値、最大値などの集約関数です。
上記の入力を使用して、Group-By補完はGroup-Byカラムをグループ化して必要な集約値を求め、データセット内のnull値をそれらの集約値で埋めます。
最終更新日 2026-03-05 11:43:24 +0530 IST
Yes
No
Send your feedback to us
Skip
Submit