Aviso:

Para brindarle información de soporte completa de manera más rápida, el contenido de esta página ha sido traducido al español mediante traducción automática. Para consultar la información de soporte más precisa, consulte la versión en inglés de este contenido.

Crear un pipeline de ML

Para construir el modelo de predicción, utilizaremos el conjunto de datos preprocesado en el ML Pipeline Builder. El paso inicial en la construcción del Pipeline de ML implica seleccionar la columna objetivo, que es la columna que estamos intentando predecir.

Para crear un pipeline de ML, primero navega al componente Pipelines y haz clic en la opción Create Pipeline. ML Pipeline Creation 1

En la ventana emergente que aparece, proporciona el nombre del pipeline; nombraremos el pipeline como Churn Prediction y el modelo Churn Prediction Model en la ventana emergente Create Pipeline. Luego, selecciona el conjunto de datos apropiado y el nombre de la columna objetivo. ML Pipeline Creation Meta

Necesitamos seleccionar el conjunto de datos fuente que se eligió para construir el pipeline de datos, ya que los datos preprocesados se reflejan en el conjunto de datos fuente. En nuestro caso, importaremos el conjunto de datos Churn_1, ya que lo hemos seleccionado para el preprocesamiento y la limpieza, y nuestro objetivo es la columna llamada churn_risk_score.

  1. Codificación de columnas categóricas

    Los codificadores se usan en diversas tareas de preprocesamiento de datos y machine learning para convertir datos categóricos o no numéricos en un formato numérico con el que los algoritmos de machine learning puedan trabajar de forma efectiva.

    • Codificación ordinal

      Aquí estamos usando codificación ordinal para codificar las siguientes características categóricas: “membership_category”, “preferred_offer_types”, “medium_of_operation”, “internet_option”, “gender”, “used_special_discount”, “past_complaints”, “complaint_status” y “feedback”. Asigna enteros a las categorías basándose en su orden, haciendo posible que los algoritmos de machine learning capturen la naturaleza ordinal de los datos. Usaremos el nodo Ordinal Encoder navegando a ML operations, haciendo clic en el componente ->Encoding y eligiendo -> Ordinal Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas. Ordinal Encoding

    • Codificador one-hot

      La codificación one-hot se aplica típicamente a columnas categóricas en un conjunto de datos, donde cada categoría representa una clase o grupo distinto. Este método generalmente aumenta la dimensionalidad del conjunto de datos porque crea una nueva columna binaria para cada categoría única. El número de columnas binarias es igual al número de categorías únicas menos una, ya que puedes inferir la presencia de la última categoría por la ausencia de todas las demás.

      Aquí, estamos usando el nodo One-Hot Encoder para codificar las siguientes columnas: “region_category”, “joined_through_referral” y “offer_application_preference”. Usaremos el nodo One-Hot Encoder navegando a ML operations, seleccionando el componente -> Encoding y eligiendo -> One-Hot Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas. One Hot Encoding

  2. Ingeniería de Características:

    La selección de características es el proceso de elegir un subconjunto de las características más relevantes e importantes (variables o columnas) del conjunto de datos para usar en el entrenamiento del modelo y análisis. El objetivo de la selección de características es mejorar el rendimiento, la eficiencia y la interpretabilidad de los modelos de machine learning. La selección de características es particularmente crucial cuando se trabaja con conjuntos de datos de alta dimensionalidad, ya que puede ayudar a reducir el sobreajuste, reducir el tiempo de cómputo y mejorar la interpretabilidad del modelo.

    Aquí estamos usando la técnica de selección de características redundancy elimination para generar las características. Este método identificará y eliminará características redundantes de un conjunto de datos. Las características redundantes proporcionan información duplicada o altamente correlacionada, y no contribuyen significativamente a mejorar el rendimiento de los modelos de machine learning. Selecciona el nodo Redundancy Elimination navegando a ML operations, haciendo clic en ->Feature Engineering, seleccionando ->Feature Selection y eligiendo ->Redundancy Elimination. Feature Selection

  3. Algoritmo de ML:

    El siguiente paso en la construcción del pipeline de ML es seleccionar el algoritmo apropiado para entrenar los datos preprocesados. Aquí usaremos el algoritmo de clasificación XGBoost para entrenar los datos.

    XGBoost (Extreme Gradient Boosting) es un algoritmo de machine learning popular y poderoso comúnmente usado para tareas de clasificación. Es un método de aprendizaje de conjunto que combina las predicciones de múltiples árboles de decisión para crear un modelo predictivo fuerte. XGBoost es conocido por su velocidad, escalabilidad y capacidad para manejar conjuntos de datos complejos.
    Podemos construir rápidamente el método XGBoost Classification en el ML Pipeline Builder de QuickML arrastrando y soltando el nodo relevante XGBoost Classification desde ML operations, seleccionando ->Algorithm, haciendo clic en ->Classification y eligiendo ->XGBoost Classification.
    Para asegurarnos de que el modelo esté optimizado para nuestro conjunto de datos particular, también podemos ajustar los parámetros de ajuste; en nuestro caso, podemos simplemente mantener la configuración predeterminada. Cuando todo esté configurado, podemos guardar el pipeline para pruebas y despliegue posteriores. XGBClassification
    Una vez que arrastramos y soltamos el nodo del algoritmo, su nodo final se conectará automáticamente al nodo de destino. Haz clic en Save para guardar el pipeline y ejecuta el pipeline haciendo clic en el botón Execute en la esquina superior derecha de la página del pipeline builder. Esto te redirigirá a la página a continuación que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver claramente aquí que la ejecución del pipeline fue exitosa. executed-ml-pipeline
    Haz clic en Execution Stats para ver más detalles de cómputo sobre cada etapa de la ejecución del modelo en detalle. execution-stats-ml-pipeline
    El modelo de predicción se crea y puede examinarse en la sección Model (haz clic en Churn Prediction model) tras la finalización exitosa del flujo de trabajo de ML. Model name
    Esto ofrece percepciones útiles sobre la eficiencia y el rendimiento del modelo al hacer predicciones basadas en los datos. Model-Metrics

Última actualización 2026-03-20 21:51:56 +0530 IST