Operaciones en QuickML
El preprocesamiento de datos es el paso en el cual los datos se transforman o codifican para ayudar a la máquina a analizarlos. En otras palabras, las características de los datos ahora pueden ser fácilmente interpretadas por el algoritmo.
- Encoding
- Feature Engineering
- Imputation
- Normalization
- Transformers
Encoding es una técnica de convertir variables categóricas (discretas) en valores numéricos (continuos) para que puedan ajustarse fácilmente a un modelo de aprendizaje automático.
-
Ordinal Encoder
Un ordinal encoding implica mapear cada etiqueta única a un valor entero. Este tipo de encoding solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar ordinal encoding.
Ejemplo:
Para valores de temperatura, Low, Normal y High, podemos usar ordinal encoding. Después del encoding, los datos se verán como 0,1,2.(0–>Low temp,2–>High temp). Ordinal encoding usa una sola columna de enteros para representar las clases. Se puede pasar un diccionario de mapeo opcional. En este caso, usamos el conocimiento de que existe un orden verdadero en las clases mismas. De lo contrario, se asume que las clases no tienen un orden verdadero y los enteros se seleccionan aleatoriamente. -
One-Hot Encoding
Usamos esta técnica de codificación de datos categóricos cuando las características son nominales (no tienen ningún orden). En one-hot encoding, para cada nivel de una característica categórica, creamos una nueva variable. Cada categoría se mapea con una variable binaria que contiene 0 o 1. Aquí, 0 representa la ausencia y 1 representa la presencia de esa categoría. Si la característica categórica no es ordinal (datos ordenados) y el número de categorías en las características categóricas es bajo, el one-hot encoding se puede aplicar efectivamente.
Entrada de ejemplo:
color blue red green Salida de ejemplo:
color_blue color_red color_green 1 0 0 0 1 0 0 0 1 -
JamesStein Encoder
Para el valor de la característica, el estimador James-Stein devuelve un promedio ponderado de:
- El valor medio del objetivo para el valor de característica observado.
- El valor medio del objetivo (independientemente del valor de la característica).
-
Label Encoding
Se utiliza para convertir una columna objetivo categórica en una columna numérica asignando un entero único o etiqueta numérica a cada categoría en la variable categórica. Es importante notar que el encoding introduce un orden a las variables categóricas, lo que puede no ser útil en todos los casos. Es apropiado para variables ordinales donde existe un orden o clasificación inherente entre las categorías.
-
LeaveOneOut Encoder
El encoding Leave One Out esencialmente calcula la media de las variables objetivo para todos los registros que contienen el mismo valor para la variable de característica categórica en cuestión. El algoritmo de encoding es ligeramente diferente entre el conjunto de datos de entrenamiento y el de prueba. Para los conjuntos de datos de entrenamiento, el registro en consideración se excluye, de ahí el nombre leave one out.
-
Target Encoding
En target encoding, calculamos la media de la variable objetivo para cada categoría y reemplazamos la variable de categoría con el valor medio. En el caso de las variables objetivo categóricas, la probabilidad posterior del objetivo reemplaza cada categoría.
Target encoding es el proceso de reemplazar un valor categórico con la media de la variable objetivo. Cualquier columna no categórica se elimina automáticamente por el modelo de target encoder. -
Count Encoder
Count encoding se basa en reemplazar las categorías con sus conteos calculados en el conjunto de entrenamiento. Los conteos pueden ser iguales para algunas de las variables, lo que puede resultar en colisión, codificando dos categorías con el mismo valor. Count encoder se puede utilizar si los conteos de las categorías no son iguales.
Entrada de ejemplo 10 10 20 30 30 30 Salida de ejemplo 2 2 1 3 3 3 -
Backward Difference Encoding
En backward difference coding, la media de la variable dependiente para un nivel se compara con la media de la variable dependiente para el nivel anterior. Este tipo de codificación puede ser útil para una variable nominal u ordinal.
-
Helmert Encoding
La media de la variable dependiente para un nivel se compara con la media de la variable dependiente sobre todos los niveles anteriores. Esta comparación no tiene mucho sentido para una variable nominal, como la raza.
-
Catboost Encoding
Catboost es un encoder categórico basado en el objetivo. Reemplaza una característica categórica con el valor promedio del objetivo correspondiente a esa categoría en el dataset de entrenamiento combinado con la probabilidad del objetivo sobre todo el dataset. Sin embargo, esto introduce una fuga del objetivo, porque el objetivo se utiliza para predecir el objetivo.
Última actualización 2026-03-24 17:38:39 +0530 IST
Yes
No
Send your feedback to us