Operaciones en QuickML

# Operaciones en QuickML
El preprocesamiento de datos es el paso en el cual los datos se transforman o codifican para ayudar a la máquina a analizarlos. En otras palabras, las características de los datos ahora pueden ser fácilmente interpretadas por el algoritmo.
1. **Encoding**
2. **Feature Engineering**
3. **Imputation**
4. **Normalization**
5. **Transformers**

# Encoding
Encoding es una técnica de convertir variables categóricas (discretas) en valores numéricos (continuos) para que puedan ajustarse fácilmente a un modelo de aprendizaje automático.
1. ### Ordinal Encoder
    Un ordinal encoding implica mapear cada etiqueta única a un valor entero. Este tipo de encoding solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar ordinal encoding.\
    **Ejemplo:**\
    Para valores de temperatura, Low, Normal y High, podemos usar ordinal encoding. Después del encoding, los datos se verán como 0,1,2.(0-->Low temp,2-->High temp).
    Ordinal encoding usa una sola columna de enteros para representar las clases. Se puede pasar un diccionario de mapeo opcional. En este caso, usamos el conocimiento de que existe un orden verdadero en las clases mismas. De lo contrario, se asume que las clases no tienen un orden verdadero y los enteros se seleccionan aleatoriamente.

2. ### One-Hot Encoding
    Usamos esta técnica de codificación de datos categóricos cuando las características son nominales (no tienen ningún orden). En one-hot encoding, para cada nivel de una característica categórica, creamos una nueva variable. Cada categoría se mapea con una variable binaria que contiene 0 o 1. Aquí, 0 representa la ausencia y 1 representa la presencia de esa categoría.
    Si la característica categórica no es ordinal (datos ordenados) y el número de categorías en las características categóricas es bajo, el one-hot encoding se puede aplicar efectivamente.
    
    **Entrada de ejemplo:** 
    <table class="content-table" style="width:200px;">
    <thead>
    <tr>
    <th style="text-align:center">color</th>
    </tr>
    </thead>
    <tbody>
    <tr>
    <td style="text-align:center">blue</td>
    </tr>
    <tr>
    <td style="text-align:center">red</td>
    </tr>
    <tr>
    <td style="text-align:center">green</td>
    </tr>
    </tbody>
    </table>

**Salida de ejemplo:** 
    <table class="content-table" style="width:500px;">
    <thead>
    <tr>
    <th style="text-align:center">color_blue</th>
    <th style="text-align:center">color_red</th>
    <th style="text-align:center">color_green</th>
    </tr>
    </thead>
    <tbody>
    <tr>
    <td style="text-align:center">1</td>
    <td style="text-align:center">0</td>
    <td style="text-align:center">0</td>
    </tr>
    <tr>
    <td style="text-align:center">0</td>
    <td style="text-align:center">1</td>
    <td style="text-align:center">0</td>
    </tr>
    <tr>
    <td style="text-align:center">0</td>
    <td style="text-align:center">0</td>
    <td style="text-align:center">1</td>
    </tr>
    </tbody>
    </table>
3. ### JamesStein Encoder
    Para el valor de la característica, el estimador James-Stein devuelve un promedio ponderado de:
    1. El valor medio del objetivo para el valor de característica observado.
    2. El valor medio del objetivo (independientemente del valor de la característica).
4. ### Label Encoding
    Se utiliza para convertir una columna objetivo categórica en una columna numérica asignando un entero único o etiqueta numérica a cada categoría en la variable categórica. Es importante notar que el encoding introduce un orden a las variables categóricas, lo que puede no ser útil en todos los casos. Es apropiado para variables ordinales donde existe un orden o clasificación inherente entre las categorías.
5. ### LeaveOneOut Encoder
    El encoding Leave One Out esencialmente calcula la media de las variables objetivo para todos los registros que contienen el mismo valor para la variable de característica categórica en cuestión. El algoritmo de encoding es ligeramente diferente entre el conjunto de datos de entrenamiento y el de prueba. Para los conjuntos de datos de entrenamiento, el registro en consideración se excluye, de ahí el nombre leave one out.
6. ### Target Encoding
    En target encoding, calculamos la media de la variable objetivo para cada categoría y reemplazamos la variable de categoría con el valor medio. En el caso de las variables objetivo categóricas, la probabilidad posterior del objetivo reemplaza cada categoría.\
    Target encoding es el proceso de reemplazar un valor categórico con la media de la variable objetivo. Cualquier columna no categórica se elimina automáticamente por el modelo de target encoder.
7. ### Count Encoder
    Count encoding se basa en reemplazar las categorías con sus conteos calculados en el conjunto de entrenamiento. Los conteos pueden ser iguales para algunas de las variables, lo que puede resultar en colisión, codificando dos categorías con el mismo valor. Count encoder se puede utilizar si los conteos de las categorías no son iguales.
    <table class="content-table" style="width:600px;">
    <tr>
    <th style="text-align:center">Entrada de ejemplo</th>
    <td style="text-align:center">10</td>
    <td style="text-align:center">10</td>
    <td style="text-align:center">20</td>
    <td style="text-align:center">30</td>
    <td style="text-align:center">30</td>
    <td style="text-align:center">30</td>
    </tr>
    <th style="text-align:center">Salida de ejemplo</th>
    <td style="text-align:center">2</td>
    <td style="text-align:center">2</td>
    <td style="text-align:center">1</td>
    <td style="text-align:center">3</td>
    <td style="text-align:center">3</td>
    <td style="text-align:center">3</td>
    </tr>
    <tbody>
    </tbody>
    </table>

8. ### Backward Difference Encoding
    En backward difference coding, la media de la variable dependiente para un nivel se compara con la media de la variable dependiente para el nivel anterior. Este tipo de codificación puede ser útil para una variable nominal u ordinal.
9. ### Helmert Encoding
    La media de la variable dependiente para un nivel se compara con la media de la variable dependiente sobre todos los niveles anteriores. Esta comparación no tiene mucho sentido para una variable nominal, como la raza.
10. ### Catboost Encoding
    Catboost es un encoder categórico basado en el objetivo. Reemplaza una característica categórica con el valor promedio del objetivo correspondiente a esa categoría en el dataset de entrenamiento combinado con la probabilidad del objetivo sobre todo el dataset. Sin embargo, esto introduce una fuga del objetivo, porque el objetivo se utiliza para predecir el objetivo.

El preprocesamiento de datos es el paso en el cual los datos se transforman o codifican para ayudar a la máquina a analizarlos. En otras palabras, las características de los datos ahora pueden ser fácilmente interpretadas por el algoritmo.

Encoding
Feature Engineering
Imputation
Normalization
Transformers

Encoding es una técnica de convertir variables categóricas (discretas) en valores numéricos (continuos) para que puedan ajustarse fácilmente a un modelo de aprendizaje automático.

Ordinal Encoder

Un ordinal encoding implica mapear cada etiqueta única a un valor entero. Este tipo de encoding solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar ordinal encoding.
Ejemplo:
Para valores de temperatura, Low, Normal y High, podemos usar ordinal encoding. Después del encoding, los datos se verán como 0,1,2.(0–>Low temp,2–>High temp). Ordinal encoding usa una sola columna de enteros para representar las clases. Se puede pasar un diccionario de mapeo opcional. En este caso, usamos el conocimiento de que existe un orden verdadero en las clases mismas. De lo contrario, se asume que las clases no tienen un orden verdadero y los enteros se seleccionan aleatoriamente.
One-Hot Encoding

Usamos esta técnica de codificación de datos categóricos cuando las características son nominales (no tienen ningún orden). En one-hot encoding, para cada nivel de una característica categórica, creamos una nueva variable. Cada categoría se mapea con una variable binaria que contiene 0 o 1. Aquí, 0 representa la ausencia y 1 representa la presencia de esa categoría. Si la característica categórica no es ordinal (datos ordenados) y el número de categorías en las características categóricas es bajo, el one-hot encoding se puede aplicar efectivamente.

Entrada de ejemplo:

color

blue

red

green

Salida de ejemplo:

color_blue color_red color_green

1 0 0

0 1 0

0 0 1
JamesStein Encoder

Para el valor de la característica, el estimador James-Stein devuelve un promedio ponderado de:
1. El valor medio del objetivo para el valor de característica observado.
2. El valor medio del objetivo (independientemente del valor de la característica).
Label Encoding

Se utiliza para convertir una columna objetivo categórica en una columna numérica asignando un entero único o etiqueta numérica a cada categoría en la variable categórica. Es importante notar que el encoding introduce un orden a las variables categóricas, lo que puede no ser útil en todos los casos. Es apropiado para variables ordinales donde existe un orden o clasificación inherente entre las categorías.
LeaveOneOut Encoder

El encoding Leave One Out esencialmente calcula la media de las variables objetivo para todos los registros que contienen el mismo valor para la variable de característica categórica en cuestión. El algoritmo de encoding es ligeramente diferente entre el conjunto de datos de entrenamiento y el de prueba. Para los conjuntos de datos de entrenamiento, el registro en consideración se excluye, de ahí el nombre leave one out.
Target Encoding

En target encoding, calculamos la media de la variable objetivo para cada categoría y reemplazamos la variable de categoría con el valor medio. En el caso de las variables objetivo categóricas, la probabilidad posterior del objetivo reemplaza cada categoría.
Target encoding es el proceso de reemplazar un valor categórico con la media de la variable objetivo. Cualquier columna no categórica se elimina automáticamente por el modelo de target encoder.
Count Encoder

Count encoding se basa en reemplazar las categorías con sus conteos calculados en el conjunto de entrenamiento. Los conteos pueden ser iguales para algunas de las variables, lo que puede resultar en colisión, codificando dos categorías con el mismo valor. Count encoder se puede utilizar si los conteos de las categorías no son iguales.

Entrada de ejemplo 10 10 20 30 30 30

Salida de ejemplo 2 2 1 3 3 3
Backward Difference Encoding

En backward difference coding, la media de la variable dependiente para un nivel se compara con la media de la variable dependiente para el nivel anterior. Este tipo de codificación puede ser útil para una variable nominal u ordinal.
Helmert Encoding

La media de la variable dependiente para un nivel se compara con la media de la variable dependiente sobre todos los niveles anteriores. Esta comparación no tiene mucho sentido para una variable nominal, como la raza.
Catboost Encoding

Catboost es un encoder categórico basado en el objetivo. Reemplaza una característica categórica con el valor promedio del objetivo correspondiente a esa categoría en el dataset de entrenamiento combinado con la probabilidad del objetivo sobre todo el dataset. Sin embargo, esto introduce una fuga del objetivo, porque el objetivo se utiliza para predecir el objetivo.

color
blue
red
green

color_blue	color_red	color_green
1	0	0
0	1	0
0	0	1

Entrada de ejemplo	10	10	20	30	30	30
Salida de ejemplo	2	2	1	3	3	3

Última actualización 2026-03-24 17:38:39 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit