Imputers

# Imputers
La imputación es una técnica utilizada para reemplazar los datos faltantes en un dataset con algún valor sustituto para retener la mayor parte de los datos/información del dataset.

1. ### KNN Imputation
    Esta imputación utiliza el método k-Nearest Neighbours para reemplazar los valores faltantes en los datasets con el valor medio de los n_neighbors vecinos más cercanos encontrados en el conjunto de entrenamiento. Por defecto, el parámetro n_neigbours se establecerá en 5 y se utilizará la métrica de distancia euclidiana para encontrar los k vecinos más cercanos.
2. ### MissForest Imputation
    Inicialmente imputa todos los datos faltantes usando la media/moda. Luego, para cada variable con valores faltantes, se entrenará un modelo de random forest en la parte observada y luego predice la parte faltante.
3. ### Mean Imputation
    Mean Imputation reemplaza los valores nulos con la media de esa característica a lo largo de todo el dataset.
4. ### Median Imputation
    Median Imputation reemplaza los valores nulos con la mediana de esa característica a lo largo de todo el dataset.
5. ### Mode Imputation
    Mode Imputation reemplaza los valores nulos con la moda de esa característica a lo largo de todo el dataset.
6. ### Group-By Imputation
    Group-by imputation toma las siguientes 3 entradas para reemplazar los valores nulos.
    * **Columns to Impute**: Columnas que contienen valores nulos y que necesitan ser reemplazados.
    * **Group-By Columns**: Estas columnas se agruparán al calcular los valores para reemplazar los valores nulos.
    * **Aggregator**: Función de agregación como mean, median, minimum y maximum que necesita ser utilizada.

Usando las entradas anteriores, Group-By Imputation encuentra los valores de agregación requeridos agrupando las columnas Group-By y rellena los valores nulos en el dataset con esos valores de agregación.

La imputación es una técnica utilizada para reemplazar los datos faltantes en un dataset con algún valor sustituto para retener la mayor parte de los datos/información del dataset.

KNN Imputation

Esta imputación utiliza el método k-Nearest Neighbours para reemplazar los valores faltantes en los datasets con el valor medio de los n_neighbors vecinos más cercanos encontrados en el conjunto de entrenamiento. Por defecto, el parámetro n_neigbours se establecerá en 5 y se utilizará la métrica de distancia euclidiana para encontrar los k vecinos más cercanos.
MissForest Imputation

Inicialmente imputa todos los datos faltantes usando la media/moda. Luego, para cada variable con valores faltantes, se entrenará un modelo de random forest en la parte observada y luego predice la parte faltante.
Mean Imputation

Mean Imputation reemplaza los valores nulos con la media de esa característica a lo largo de todo el dataset.
Median Imputation

Median Imputation reemplaza los valores nulos con la mediana de esa característica a lo largo de todo el dataset.
Mode Imputation

Mode Imputation reemplaza los valores nulos con la moda de esa característica a lo largo de todo el dataset.
Group-By Imputation

Group-by imputation toma las siguientes 3 entradas para reemplazar los valores nulos.
- Columns to Impute: Columnas que contienen valores nulos y que necesitan ser reemplazados.
- Group-By Columns: Estas columnas se agruparán al calcular los valores para reemplazar los valores nulos.
- Aggregator: Función de agregación como mean, median, minimum y maximum que necesita ser utilizada.
Usando las entradas anteriores, Group-By Imputation encuentra los valores de agregación requeridos agrupando las columnas Group-By y rellena los valores nulos en el dataset con esos valores de agregación.

Última actualización 2026-03-24 17:38:39 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit