Imputers
La imputación es una técnica utilizada para reemplazar los datos faltantes en un dataset con algún valor sustituto para retener la mayor parte de los datos/información del dataset.
-
KNN Imputation
Esta imputación utiliza el método k-Nearest Neighbours para reemplazar los valores faltantes en los datasets con el valor medio de los n_neighbors vecinos más cercanos encontrados en el conjunto de entrenamiento. Por defecto, el parámetro n_neigbours se establecerá en 5 y se utilizará la métrica de distancia euclidiana para encontrar los k vecinos más cercanos.
-
MissForest Imputation
Inicialmente imputa todos los datos faltantes usando la media/moda. Luego, para cada variable con valores faltantes, se entrenará un modelo de random forest en la parte observada y luego predice la parte faltante.
-
Mean Imputation
Mean Imputation reemplaza los valores nulos con la media de esa característica a lo largo de todo el dataset.
-
Median Imputation
Median Imputation reemplaza los valores nulos con la mediana de esa característica a lo largo de todo el dataset.
-
Mode Imputation
Mode Imputation reemplaza los valores nulos con la moda de esa característica a lo largo de todo el dataset.
-
Group-By Imputation
Group-by imputation toma las siguientes 3 entradas para reemplazar los valores nulos.
- Columns to Impute: Columnas que contienen valores nulos y que necesitan ser reemplazados.
- Group-By Columns: Estas columnas se agruparán al calcular los valores para reemplazar los valores nulos.
- Aggregator: Función de agregación como mean, median, minimum y maximum que necesita ser utilizada.
Usando las entradas anteriores, Group-By Imputation encuentra los valores de agregación requeridos agrupando las columnas Group-By y rellena los valores nulos en el dataset con esos valores de agregación.
Última actualización 2026-03-24 17:38:39 +0530 IST
Yes
No
Send your feedback to us