Aviso:

Para brindarle información de soporte completa de manera más rápida, el contenido de esta página ha sido traducido al español mediante traducción automática. Para consultar la información de soporte más precisa, consulte la versión en inglés de este contenido.

Crear un pipeline de ML

Para construir el modelo de predicción, utilizaremos el conjunto de datos preprocesado en el ML Pipeline Builder. El paso inicial en la construcción del Pipeline de ML implica seleccionar la columna objetivo, que es la columna que estamos intentando predecir.

Para crear un pipeline de ML, primero navega al componente Pipelines y haz clic en la opción Create Pipeline. ML Pipeline Creation 1

En la ventana emergente que aparece, selecciona Prediction como tipo de pipeline y proporciona el nombre del pipeline; nombraremos el pipeline como Churn_Prediction_ML_Pipeline y el modelo Churn_Prediction_ML_Pipeline Model en la ventana emergente Create Pipeline. Luego, selecciona el conjunto de datos apropiado y el nombre de la columna objetivo. ML Pipeline Creation Meta

Necesitamos seleccionar el conjunto de datos fuente que se eligió para construir el pipeline de datos, ya que los datos preprocesados se reflejan en el conjunto de datos fuente. En nuestro caso, importaremos el conjunto de datos Bank_Customers_Sample_Data, ya que lo hemos seleccionado para el preprocesamiento y la limpieza, y nuestro objetivo es la columna llamada Exited.

  1. Imputers

    Los imputers se usan en diversos campos, como análisis de datos, estadística y machine learning para manejar datos faltantes o incompletos. Aquí, estamos usando el imputer de media importándolo desde ML operations > Imputers > Mean Imputer para imputar los valores faltantes en el conjunto de datos. La imputación por media y la imputación por moda se refieren a una técnica de imputación de datos donde los valores faltantes se rellenan basándose en la media o moda de las columnas seleccionadas. Mean Imputer

    Aquí, las columnas que no deben contener valores vacíos para las mejores predicciones del modelo son “CreditScore”, “Age”, “Tenure”, “Balance”, “NumOfProducts”, “HasCrCard”, “IsActiveMember”, “EstimatedSalary” imputadas por sus valores de media, y algunas columnas que se imputan por su moda son “Gender” y “Geography”. Mode Imputer

  2. Codificación

    Los codificadores se usan en diversas tareas de preprocesamiento de datos y machine learning para convertir datos categóricos o no numéricos en un formato numérico con el que los algoritmos de machine learning puedan trabajar de forma efectiva.

    Codificación ordinal

    Aquí, estamos usando codificación ordinal para codificar las siguientes características categóricas: “gender”. Asigna enteros a las categorías basándose en su orden, haciendo posible que los algoritmos de machine learning capturen la naturaleza ordinal de los datos. Usaremos el nodo Ordinal Encoder navegando a ML operations, haciendo clic en el componente ->Encoding y eligiendo -> Ordinal Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas. Ordinal Encoder

    Ordinal Encoder

    Ordinal Encoding implica mapear cada etiqueta única a un valor entero. Este tipo de codificación solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar codificación ordinal.

    Aquí estamos usando el nodo Ordinal Encoder para codificar la columna Gender. Podemos usar el nodo Ordinal Encoder desde ML Operations > Encoding > Ordinal Encoder en QuickML para convertir las columnas categóricas en columnas numéricas. Aquí, estamos convirtiendo todas las columnas categóricas a formato numérico mientras retenemos el orden original de las columnas y los datos para el entrenamiento del modelo.

  3. Codificación one-hot

    La codificación one-hot se aplica típicamente a columnas categóricas en un conjunto de datos, donde cada categoría representa una clase o grupo distinto. Este método generalmente aumenta la dimensionalidad del conjunto de datos porque crea una nueva columna binaria para cada categoría única. El número de columnas binarias es igual al número de categorías únicas menos una, ya que puedes inferir la presencia de la última categoría por la ausencia de todas las demás.

    Aquí, estamos usando el nodo One-Hot Encoder para codificar la siguiente columna: “Geography”. Usaremos el nodo One-Hot Encoder navegando a ML operations, seleccionando el componente -> Encoding y eligiendo -> One-Hot Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas. One Hot Encoding

  4. Normalizar las columnas

    Navega a ML operations-> Normalization. Arrastra y suelta el nodo Min-Max Normalization en la interfaz del ML pipeline builder. En el cuadro de configuración del panel derecho, elige todas las columnas excepto Exited que es el objetivo y haz clic en Save. Normalization

  5. Ingeniería de Características:

    La selección de características es el proceso de elegir un subconjunto de las características más relevantes e importantes (variables o columnas) del conjunto de datos para usar en el entrenamiento del modelo y análisis. El objetivo de la selección de características es mejorar el rendimiento, la eficiencia y la interpretabilidad de los modelos de machine learning. La selección de características es particularmente crucial cuando se trabaja con conjuntos de datos de alta dimensionalidad, ya que puede ayudar a reducir el sobreajuste, reducir el tiempo de cómputo y mejorar la interpretabilidad del modelo.

    Aquí estamos usando la técnica de selección de características PCA para generar las características. Selecciona el nodo PCA navegando a ML operations, haciendo clic en ->Feature Engineering y eligiendo ->Feature Reduction. Feature Selection

  6. Algoritmo de ML:

    El siguiente paso en la construcción del pipeline de ML es seleccionar el algoritmo apropiado para entrenar los datos preprocesados. Aquí usaremos la clasificación Random-Forest para entrenar los datos.

Para asegurarnos de que el modelo esté optimizado para nuestro conjunto de datos particular, también podemos ajustar los parámetros de ajuste; en nuestro caso, podemos simplemente mantener la configuración predeterminada. Selecciona el nodo Random-Forest Classification navegando a ML operations, haciendo clic en ->Algorithms y eligiendo ->Classification. Cuando todo esté configurado, podemos guardar el pipeline para pruebas y despliegue posteriores. random-forest-classification
Una vez que arrastramos y soltamos el nodo del algoritmo, su nodo final se conectará automáticamente al nodo de destino. Haz clic en Save para guardar el pipeline y ejecuta el pipeline haciendo clic en el botón Execute en la esquina superior derecha de la página del pipeline builder. Esto te redirigirá a la página a continuación que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver claramente aquí que la ejecución del pipeline fue exitosa. executed-ml-pipeline
Haz clic en Execution Stats para ver más detalles de cómputo sobre cada etapa de la ejecución del modelo en detalle. execution-stats-ml-pipeline
El modelo de predicción se crea y puede examinarse en la sección Model (haz clic en Churn_Prediction_ML_Pipeline Model) tras la finalización exitosa del flujo de trabajo de ML. Model name
Esto ofrece percepciones útiles sobre la eficiencia y el rendimiento del modelo al hacer predicciones basadas en los datos. Model-Metrics

Última actualización 2026-03-20 21:51:56 +0530 IST