Aviso:

Para brindarle información de soporte completa de manera más rápida, el contenido de esta página ha sido traducido al español mediante traducción automática. Para consultar la información de soporte más precisa, consulte la versión en inglés de este contenido.

Operaciones en QuickML

El preprocesamiento de datos es el paso en el cual los datos se transforman o codifican para ayudar a la máquina a analizarlos. En otras palabras, las características de los datos ahora pueden ser fácilmente interpretadas por el algoritmo.

  1. Encoding
  2. Feature Engineering
  3. Imputation
  4. Normalization
  5. Transformers

Encoding es una técnica de convertir variables categóricas (discretas) en valores numéricos (continuos) para que puedan ajustarse fácilmente a un modelo de aprendizaje automático.

  1. Ordinal Encoder

    Un ordinal encoding implica mapear cada etiqueta única a un valor entero. Este tipo de encoding solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar ordinal encoding.
    Ejemplo:
    Para valores de temperatura, Low, Normal y High, podemos usar ordinal encoding. Después del encoding, los datos se verán como 0,1,2.(0–>Low temp,2–>High temp). Ordinal encoding usa una sola columna de enteros para representar las clases. Se puede pasar un diccionario de mapeo opcional. En este caso, usamos el conocimiento de que existe un orden verdadero en las clases mismas. De lo contrario, se asume que las clases no tienen un orden verdadero y los enteros se seleccionan aleatoriamente.

  2. One-Hot Encoding

    Usamos esta técnica de codificación de datos categóricos cuando las características son nominales (no tienen ningún orden). En one-hot encoding, para cada nivel de una característica categórica, creamos una nueva variable. Cada categoría se mapea con una variable binaria que contiene 0 o 1. Aquí, 0 representa la ausencia y 1 representa la presencia de esa categoría. Si la característica categórica no es ordinal (datos ordenados) y el número de categorías en las características categóricas es bajo, el one-hot encoding se puede aplicar efectivamente.

    Entrada de ejemplo:

    color
    blue
    red
    green

    Salida de ejemplo:

    color_blue color_red color_green
    1 0 0
    0 1 0
    0 0 1
  3. JamesStein Encoder

    Para el valor de la característica, el estimador James-Stein devuelve un promedio ponderado de:

    1. El valor medio del objetivo para el valor de característica observado.
    2. El valor medio del objetivo (independientemente del valor de la característica).
  4. Label Encoding

    Se utiliza para convertir una columna objetivo categórica en una columna numérica asignando un entero único o etiqueta numérica a cada categoría en la variable categórica. Es importante notar que el encoding introduce un orden a las variables categóricas, lo que puede no ser útil en todos los casos. Es apropiado para variables ordinales donde existe un orden o clasificación inherente entre las categorías.

  5. LeaveOneOut Encoder

    El encoding Leave One Out esencialmente calcula la media de las variables objetivo para todos los registros que contienen el mismo valor para la variable de característica categórica en cuestión. El algoritmo de encoding es ligeramente diferente entre el conjunto de datos de entrenamiento y el de prueba. Para los conjuntos de datos de entrenamiento, el registro en consideración se excluye, de ahí el nombre leave one out.

  6. Target Encoding

    En target encoding, calculamos la media de la variable objetivo para cada categoría y reemplazamos la variable de categoría con el valor medio. En el caso de las variables objetivo categóricas, la probabilidad posterior del objetivo reemplaza cada categoría.
    Target encoding es el proceso de reemplazar un valor categórico con la media de la variable objetivo. Cualquier columna no categórica se elimina automáticamente por el modelo de target encoder.

  7. Count Encoder

    Count encoding se basa en reemplazar las categorías con sus conteos calculados en el conjunto de entrenamiento. Los conteos pueden ser iguales para algunas de las variables, lo que puede resultar en colisión, codificando dos categorías con el mismo valor. Count encoder se puede utilizar si los conteos de las categorías no son iguales.

    Entrada de ejemplo 10 10 20 30 30 30
    Salida de ejemplo 2 2 1 3 3 3
  8. Backward Difference Encoding

    En backward difference coding, la media de la variable dependiente para un nivel se compara con la media de la variable dependiente para el nivel anterior. Este tipo de codificación puede ser útil para una variable nominal u ordinal.

  9. Helmert Encoding

    La media de la variable dependiente para un nivel se compara con la media de la variable dependiente sobre todos los niveles anteriores. Esta comparación no tiene mucho sentido para una variable nominal, como la raza.

  10. Catboost Encoding

    Catboost es un encoder categórico basado en el objetivo. Reemplaza una característica categórica con el valor promedio del objetivo correspondiente a esa categoría en el dataset de entrenamiento combinado con la probabilidad del objetivo sobre todo el dataset. Sin embargo, esto introduce una fuga del objetivo, porque el objetivo se utiliza para predecir el objetivo.

Última actualización 2026-03-24 17:38:39 +0530 IST