Aviso:

Para brindarle información de soporte completa de manera más rápida, el contenido de esta página ha sido traducido al español mediante traducción automática. Para consultar la información de soporte más precisa, consulte la versión en inglés de este contenido.

Conceptos Clave

Antes de leer más sobre el uso de AutoML, asegúrate de comprender los siguientes conceptos de Zia AutoML.

Modelo

Un modelo es un conjunto de cálculos generados como resultado del entrenamiento del conjunto de datos de entrada utilizando varios algoritmos de machine learning. Puedes usar el modelo de AutoML para hacer predicciones en el conjunto de datos para diversas condiciones. Un modelo es, por lo tanto, una representación matemática de un proceso del mundo real sobre el que puedes realizar un análisis en profundidad para probar diversas hipótesis.

Una vez que se genera un modelo en AutoML, puedes proporcionar un conjunto de valores de entrada y generar un conjunto de valores de salida predictivos basados en los patrones observados en el conjunto de datos.

Conjunto de Datos

Un conjunto de datos de entrenamiento de entrada es la colección de datos estructurados que proporcionas para que el modelo analice y entrene para realizar predicciones. Debes proporcionar el conjunto de datos en forma de un archivo CSV que contenga columnas y filas de datos en AutoML. Puedes subir el archivo CSV directamente desde tu computadora o importarlo desde Catalyst File Store. Puedes obtener más información sobre esto en la sección de Implementación.

Objetivo

El objetivo es la columna cuyo valor necesita ser predicho después de que el modelo sea entrenado con el conjunto de datos. La predicción del valor se basa en el tipo de dato de la columna objetivo.

Solo puedes elegir una columna de tipo numérico o categórico como objetivo en AutoML. Zia no puede predecir los valores de una columna de tipo string o fecha, ya que no contienen datos calculables. Aprenderás sobre los tipos de datos de una columna en la siguiente parte.

Atributos de una Columna

Zia determina seis atributos para cada columna en un conjunto de datos que se sube. Varios algoritmos calculan y determinan los valores de estos atributos antes de que selecciones un objetivo.

Los siguientes atributos se determinan para las columnas en un conjunto de datos:

  1. Tipo
    Esto se determina para cada columna en el conjunto de datos. AutoML soporta los siguientes tipos de datos:
    • Numérico: Una columna con solo valores numéricos se clasifica como Numérica.
    • String: Una columna con un conjunto de caracteres numéricos, alfabéticos o de cualquier otro tipo como valores se clasifica como String. Cualquier columna que contenga valores mixtos de varios tipos de datos también se clasifica como String.
    • Fecha: Una columna con solo valores de fecha y hora se clasifica como Fecha. AutoML soporta los siguientes formatos de fecha:
Formato Ejemplo
YYYY-MM-DD ‘2019-02-12’
YYYY/MM/DD ‘2008/07/28’
YYYY/MM/DD hh:mm:ss ‘2011/03/17 23:58:30’
DD-MM-YYYY ‘03-09-2016’
DD/MM/YYYY ‘22/11/2018’
DD-Month-YYYY ‘13-January-2012’
YYYY-MM-DDThh:mm:ss.sTZD ‘2019-11-28T05:19:31.665523+00:00’
YYYY.MM.DD ‘2020.01.24’
Unix timestamp string in seconds ‘1574918464’
Unix timestamp string in milliseconds ‘157491844000’
Unix timestamp string in microseconds ‘157491844000000’
  • Categórico: Una columna con un número limitado de valores distintos se clasifica como Categórica. Hay dos tipos de columnas Categóricas:
    • Clase binaria: Una columna de clase binaria contiene solo dos valores distintos en todos los registros. Por ejemplo, columnas con valores como Sí/No, Ganar/Perder.
    • Multiclase: Una columna multiclase contiene tres o más, pero un número limitado de, valores distintos en todos los registros. Por ejemplo, una columna que representa los estados de un país, o una columna que lista los programas de posgrado disponibles en una universidad. La siguiente tabla muestra las columnas que pueden o no pueden usarse como objetivo o para entrenar el modelo, según sus tipos de datos:
Tipo de Dato Objetivo Entrenamiento
Numérico
String
Fecha
Categórico (Tanto clase binaria como multiclase)
  1. Faltante (en %)
    Esto representa el porcentaje de valores faltantes en una columna del conjunto de datos. Por ejemplo, en un conjunto de datos que contiene 20 registros, si los valores de una columna están vacíos para 10 registros, la cantidad de datos faltantes es del 50%.

  2. Valores Distintos
    Esto representa el número de entradas distintas en los valores de una columna del conjunto de datos. Por ejemplo, si los valores de una columna contienen solo ‘Sí’, ‘No’ y ‘Quizás’ para todos los registros, el número de valores distintos es tres y la columna se clasifica como tipo Categórico Multiclase.

  3. Media
    Esto representa el valor medio de todos los valores en la columna. Esto se determina solo para columnas Numéricas.

  4. DE
    Esto representa la desviación estándar de todos los valores en la columna. Esto se determina solo para columnas de tipo Numérico.

  5. Correlación con el Objetivo
    Esto representa la correlación de una columna con el objetivo en un rango de 0 a 1, donde 0 indica sin correlación y 1 indica correlación perfecta. La correlación de una columna con el objetivo se determina por los patrones observados en los valores de la columna con referencia a los valores en la columna objetivo.

Por ejemplo, una columna que reporta el número de casos de gripe común es el objetivo de un modelo. Otra columna que representa los meses del año tendrá una alta correlación con el objetivo, ya que el número de casos de gripe es generalmente mayor durante los meses de invierno, y por lo tanto son altamente dependientes entre sí. Esto se determina para cada columna en el conjunto de datos, excepto para las columnas de tipo String.

La siguiente tabla muestra cómo se determinan los diversos atributos para las columnas, según los tipos de datos:

Tipo de Dato Faltante Distintos Media DE Correlación con Objetivo
Numérico
String
Fecha
Categórico (Tanto clase binaria como multiclase)

Selección de Características de Entrada

AutoML te permite seleccionar las columnas que se utilizarán para entrenar el modelo. Esto se basa en un concepto de machine learning conocido como selección de características, que es el proceso de seleccionar un subconjunto de características relevantes para usar en la construcción de un modelo. Puedes seleccionar las características que crees que contribuirán más a tu variable de predicción.

Las columnas que seleccionas para el entrenamiento tienen un alto impacto en la precisión de la predicción de un modelo. La precisión se calcula y determina para los modelos de clasificación de clase binaria y multiclase. Aprenderás sobre estos en la siguiente parte.

Es una buena práctica excluir las columnas que son irrelevantes o que tienen baja correlación con el objetivo, ya que afectarán el aprendizaje del modelo al proporcionar patrones innecesarios. También puedes excluir columnas según el porcentaje de datos faltantes en ellas, ya que las columnas con un alto número de valores faltantes pueden alterar la precisión de la predicción del modelo.

Una columna de tipo String no puede usarse para entrenar un modelo, como se muestra en la tabla anterior. Esto se debe a que el tipo String no contiene datos cuantificables o calculables.

Tipos de Modelo

Después de seleccionar un objetivo para un modelo, se clasifica en uno de los siguientes tres tipos según el tipo de dato de la columna objetivo que seleccionaste:

  • Regresión: Si la columna objetivo de un modelo es de tipo numérico, entonces el modelo se clasifica como un modelo de regresión. Este modelo predice un valor numérico.
  • Clasificación de Clase Binaria: Si la columna objetivo de un modelo es de tipo categórico de clase binaria, entonces el modelo se clasifica como un modelo de clasificación de clase binaria. Este modelo predice un resultado binario o booleano.
  • Clasificación Multiclase: Si la columna objetivo de un modelo es de tipo categórico multiclase, entonces el modelo se clasifica como un modelo de clasificación multiclase. Este modelo predice una clase de entre tres o más clases discretas.

Puedes ver el tipo de un modelo en su informe de evaluación.

Entrenamiento de un Modelo

AutoML ejecuta algoritmos de machine learning para identificar patrones, extraer inferencias, y construir y entrenar modelos utilizando el 80% del conjunto de datos que proporcionas. Luego, AutoML utiliza el 20% restante del conjunto de datos para validar el modelo que ha construido. Todo este proceso ocurre mientras el entrenamiento del modelo está en progreso.

Después de que un modelo es entrenado, AutoML proporciona diversas estadísticas que se calcularon durante el proceso de entrenamiento en el informe de evaluación del modelo. La información proporcionada difiere según el tipo de modelo.

Informe de Evaluación para Modelos de Clasificación de Clase Binaria y Multiclase

AutoML proporciona valores porcentuales para los siguientes atributos de un modelo de clasificación de clase binaria en forma de una matriz de confusión:

  • Verdadero Positivo (TP): Un verdadero positivo es un resultado donde el modelo predice correctamente la clase positiva.
  • Verdadero Negativo (TN): Un verdadero negativo es un resultado donde el modelo predice correctamente la clase negativa.
  • Falso Positivo (FP): Un falso positivo es un resultado donde el modelo predice incorrectamente la clase positiva.
  • Falso Negativo (FN): Un falso negativo es un resultado donde el modelo predice incorrectamente la clase negativa.

La matriz de confusión es una matriz de 2 x 2 donde las columnas representan la clase predicha y las filas representan la clase real.

Predicho Falso Predicho Verdadero
Real Falso TN FP
Real Verdadero FN TP

La clase positiva y la clase negativa son características de una clasificación de clase binaria donde cada clase se encuentra en un lado de un límite. Por ejemplo, en un caso donde solo hay dos valores posibles para una columna, Doméstico e Internacional, Doméstico se asigna a la clase positiva cuando el clasificador busca resultados positivos de “Doméstico”. Todo lo que no es Doméstico, es decir, los valores que son Internacional, se asignan a una clase negativa de “Doméstico”.

La matriz de confusión te ayuda a entender las instancias de clasificación errónea, o asignación incorrecta de un valor a una categoría, que ocurrieron durante el entrenamiento del modelo.

Nota: AutoML solo proporciona la matriz de confusión para modelos de clasificación de clase binaria, y no para los modelos de clasificación multiclase.

La siguiente información se proporciona tanto para los modelos de clasificación de clase binaria como multiclase en sus informes de evaluación:

  1. Exactitud
    La exactitud es la fracción del total de predicciones realizadas por el modelo sobre los datos de prueba que fueron correctas, como un valor porcentual.

    Exactitud = Número de predicciones correctas / Número total de predicciones

    Para un modelo de clasificación de clase binaria, la exactitud también se puede calcular como:

    Exactitud = (TP + TN) / (TP + TN + FP + FN)

    Como se discutió anteriormente, puedes mejorar la exactitud de la predicción de un modelo excluyendo columnas irrelevantes o columnas con una alta cantidad de datos faltantes durante la selección de características de entrada. También puedes mejorarla asegurándote de proporcionar datos correctos y válidos.

  2. Precisión
    La precisión es la fracción del total de predicciones positivas realizadas por el modelo sobre los datos de prueba que fueron correctas.

    Precisión = TP / (TP+FP)

    La precisión indica cuán correcta es la predicción positiva de un modelo.

  3. Exhaustividad
    La exhaustividad es la fracción de las predicciones verdaderas positivas realizadas por el modelo, del total de verdaderos positivos y falsos negativos.

    Exhaustividad = TP / (TP+FN)

    Se utiliza para seleccionar el mejor modelo cuando hay un alto costo asociado con los falsos negativos. La exhaustividad también se conoce como la Tasa de Verdaderos Positivos.

  4. Puntuación F1
    La puntuación F1 es la media armónica de la precisión y la exhaustividad.

    Puntuación F1 = 2 x (Precisión\*Exhaustividad) / (Precisión+Exhaustividad)

    La puntuación F1 es una métrica útil si buscas un equilibrio entre precisión y exhaustividad.

  5. Log Loss
    El log loss mide la incertidumbre de la predicción de un modelo. Un valor pequeño de log loss indica baja incertidumbre. Por lo tanto, un valor alto de log loss no es deseable.

Informe de Evaluación para Modelos de Regresión

Las estadísticas discutidas en la parte anterior no se aplican a los modelos de regresión. AutoML proporciona las siguientes estadísticas en el informe de evaluación de un modelo de regresión:

  1. Error Absoluto Medio (MAE)
    El Error Absoluto Medio es la diferencia absoluta promedio entre los valores objetivo y los valores predichos. Esta métrica va de cero a infinito, donde un valor más bajo indica un modelo de mayor calidad.
  2. Error Cuadrático Medio (MSE)
    El Error Cuadrático Medio es el promedio de los cuadrados de la diferencia absoluta entre los valores objetivo y los valores predichos.
  3. Raíz del Error Cuadrático Medio (RMSE)
    La Raíz del Error Cuadrático Medio es la raíz cuadrada del error cuadrático medio.

Última actualización 2026-03-20 21:51:56 +0530 IST