Crear un pipeline de ML

# Crear un pipeline de ML

Para construir el modelo de predicción, utilizaremos el conjunto de datos preprocesado en el ML Pipeline Builder. El paso inicial en la construcción del Pipeline de ML implica seleccionar la **columna objetivo**, que es la columna que estamos intentando predecir.

Para crear un pipeline de ML, primero navega al componente **Pipelines** y haz clic en la opción Create Pipeline.

En la ventana emergente que aparece, selecciona **Prediction** como tipo de pipeline y proporciona el nombre del pipeline; nombraremos el pipeline como **Churn_Prediction_ML_Pipeline** y el modelo **Churn_Prediction_ML_Pipeline Model** en la ventana emergente Create Pipeline. Luego, selecciona el conjunto de datos apropiado y el nombre de la columna objetivo.

Necesitamos seleccionar el conjunto de datos fuente que se eligió para construir el pipeline de datos, ya que los datos preprocesados se reflejan en el conjunto de datos fuente. En nuestro caso, importaremos el conjunto de datos **Bank_Customers_Sample_Data**, ya que lo hemos seleccionado para el preprocesamiento y la limpieza, y nuestro objetivo es la columna llamada **Exited**.

1. ### Imputers
 Los imputers se usan en diversos campos, como análisis de datos, estadística y machine learning para manejar datos faltantes o incompletos. Aquí, estamos usando el imputer de media importándolo desde **ML operations > Imputers > Mean Imputer** para imputar los valores faltantes en el conjunto de datos.
 La imputación por media y la imputación por moda se refieren a una técnica de imputación de datos donde los valores faltantes se rellenan basándose en la media o moda de las columnas seleccionadas.
 
 
 Aquí, las columnas que no deben contener valores vacíos para las mejores predicciones del modelo son "**CreditScore**", "**Age**", "**Tenure**", "**Balance**", "**NumOfProducts**", "**HasCrCard**", "**IsActiveMember**", "**EstimatedSalary**" imputadas por sus valores de media, y algunas columnas que se imputan por su moda son "**Gender**" y "**Geography**".

2. ### Codificación
      Los codificadores se usan en diversas tareas de preprocesamiento de datos y machine learning para convertir datos categóricos o no numéricos en un formato numérico con el que los algoritmos de machine learning puedan trabajar de forma efectiva.

#### Codificación ordinal
 Aquí, estamos usando codificación ordinal para codificar las siguientes características categóricas: "gender". Asigna enteros a las categorías basándose en su orden, haciendo posible que los algoritmos de machine learning capturen la naturaleza ordinal de los datos. Usaremos el nodo [Ordinal Encoder](/es/quickml/help/operations-in-quickml/encoding/#ordinal-encoder) navegando a ML operations, haciendo clic en el componente ->**Encoding** y eligiendo -> **Ordinal Encoder** en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas.

#### Ordinal Encoder
      Ordinal Encoding implica mapear cada etiqueta única a un valor entero. Este tipo de codificación solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar codificación ordinal.

Aquí estamos usando el nodo Ordinal Encoder para codificar la columna **Gender**. Podemos usar el nodo Ordinal Encoder desde **ML Operations** > **Encoding** > **Ordinal Encoder** en QuickML para convertir las columnas categóricas en columnas numéricas. Aquí, estamos convirtiendo todas las columnas categóricas a formato numérico mientras retenemos el orden original de las columnas y los datos para el entrenamiento del modelo.

3. ### Codificación one-hot
      La codificación one-hot se aplica típicamente a columnas categóricas en un conjunto de datos, donde cada categoría representa una clase o grupo distinto. Este método generalmente aumenta la dimensionalidad del conjunto de datos porque crea una nueva columna binaria para cada categoría única. El número de columnas binarias es igual al número de categorías únicas menos una, ya que puedes inferir la presencia de la última categoría por la ausencia de todas las demás.

Aquí, estamos usando el nodo One-Hot Encoder para codificar la siguiente columna: "**Geography**". Usaremos el nodo One-Hot Encoder navegando a **ML operations**, seleccionando el componente -> **Encoding** y eligiendo -> **One-Hot Encoder** en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas.

4. ### Normalizar las columnas
 Navega a **ML operations-> Normalization**. Arrastra y suelta el [nodo](/es/quickml/help/operations-in-quickml/normalization/#min-max-normalization) **Min-Max Normalization** en la interfaz del ML pipeline builder. En el cuadro de configuración del panel derecho, elige todas las columnas excepto **Exited** que es el objetivo y haz clic en Save.
 
 
5. ### Ingeniería de Características:
 La selección de características es el proceso de elegir un subconjunto de las características más relevantes e importantes (variables o columnas) del conjunto de datos para usar en el entrenamiento del modelo y análisis. El objetivo de la selección de características es mejorar el rendimiento, la eficiencia y la interpretabilidad de los modelos de machine learning. La selección de características es particularmente crucial cuando se trabaja con conjuntos de datos de alta dimensionalidad, ya que puede ayudar a reducir el sobreajuste, reducir el tiempo de cómputo y mejorar la interpretabilidad del modelo.

Aquí estamos usando la técnica de selección de [características](http://localhost:1313/es/quickml/help/operations-in-quickml/feature-engineering/#feature-reduction) **PCA** para generar las características. Selecciona el nodo **PCA** navegando a **ML operations**, haciendo clic en ->**Feature Engineering** y eligiendo ->**Feature Reduction**.

6. ### Algoritmo de ML:
	El siguiente paso en la construcción del pipeline de ML es seleccionar el algoritmo apropiado para entrenar los datos preprocesados. Aquí usaremos la clasificación Random-Forest para entrenar los datos.

Para asegurarnos de que el modelo esté optimizado para nuestro conjunto de datos particular, también podemos ajustar los parámetros de ajuste; en nuestro caso, podemos simplemente mantener la configuración predeterminada. Selecciona el nodo **Random-Forest Classification** navegando a **ML operations**, haciendo clic en ->**Algorithms** y eligiendo ->**Classification**. Cuando todo esté configurado, podemos guardar el pipeline para pruebas y despliegue posteriores.
 
Una vez que arrastramos y soltamos el nodo del algoritmo, su nodo final se conectará automáticamente al nodo de destino. Haz clic en Save para guardar el pipeline y ejecuta el pipeline haciendo clic en el botón Execute en la esquina superior derecha de la página del pipeline builder.
Esto te redirigirá a la página a continuación que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver claramente aquí que la ejecución del pipeline fue exitosa.
 
Haz clic en Execution Stats para ver más detalles de cómputo sobre cada etapa de la ejecución del modelo en detalle.
 
El modelo de predicción se crea y puede examinarse en la sección Model (haz clic en **Churn_Prediction_ML_Pipeline Model**) tras la finalización exitosa del flujo de trabajo de ML.
 
Esto ofrece percepciones útiles sobre la eficiencia y el rendimiento del modelo al hacer predicciones basadas en los datos.

Para construir el modelo de predicción, utilizaremos el conjunto de datos preprocesado en el ML Pipeline Builder. El paso inicial en la construcción del Pipeline de ML implica seleccionar la columna objetivo, que es la columna que estamos intentando predecir.

Para crear un pipeline de ML, primero navega al componente Pipelines y haz clic en la opción Create Pipeline.

En la ventana emergente que aparece, selecciona Prediction como tipo de pipeline y proporciona el nombre del pipeline; nombraremos el pipeline como Churn_Prediction_ML_Pipeline y el modelo Churn_Prediction_ML_Pipeline Model en la ventana emergente Create Pipeline. Luego, selecciona el conjunto de datos apropiado y el nombre de la columna objetivo.

Necesitamos seleccionar el conjunto de datos fuente que se eligió para construir el pipeline de datos, ya que los datos preprocesados se reflejan en el conjunto de datos fuente. En nuestro caso, importaremos el conjunto de datos Bank_Customers_Sample_Data, ya que lo hemos seleccionado para el preprocesamiento y la limpieza, y nuestro objetivo es la columna llamada Exited.

Imputers

Los imputers se usan en diversos campos, como análisis de datos, estadística y machine learning para manejar datos faltantes o incompletos. Aquí, estamos usando el imputer de media importándolo desde ML operations > Imputers > Mean Imputer para imputar los valores faltantes en el conjunto de datos. La imputación por media y la imputación por moda se refieren a una técnica de imputación de datos donde los valores faltantes se rellenan basándose en la media o moda de las columnas seleccionadas.

Aquí, las columnas que no deben contener valores vacíos para las mejores predicciones del modelo son “CreditScore”, “Age”, “Tenure”, “Balance”, “NumOfProducts”, “HasCrCard”, “IsActiveMember”, “EstimatedSalary” imputadas por sus valores de media, y algunas columnas que se imputan por su moda son “Gender” y “Geography”.
Codificación

Los codificadores se usan en diversas tareas de preprocesamiento de datos y machine learning para convertir datos categóricos o no numéricos en un formato numérico con el que los algoritmos de machine learning puedan trabajar de forma efectiva.

Codificación ordinal

Aquí, estamos usando codificación ordinal para codificar las siguientes características categóricas: “gender”. Asigna enteros a las categorías basándose en su orden, haciendo posible que los algoritmos de machine learning capturen la naturaleza ordinal de los datos. Usaremos el nodo Ordinal Encoder navegando a ML operations, haciendo clic en el componente ->Encoding y eligiendo -> Ordinal Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas.

Ordinal Encoder

Ordinal Encoding implica mapear cada etiqueta única a un valor entero. Este tipo de codificación solo es realmente apropiado si existe una relación conocida entre las categorías. Si los datos están ordenados, podemos usar codificación ordinal.

Aquí estamos usando el nodo Ordinal Encoder para codificar la columna Gender. Podemos usar el nodo Ordinal Encoder desde ML Operations > Encoding > Ordinal Encoder en QuickML para convertir las columnas categóricas en columnas numéricas. Aquí, estamos convirtiendo todas las columnas categóricas a formato numérico mientras retenemos el orden original de las columnas y los datos para el entrenamiento del modelo.
Codificación one-hot

La codificación one-hot se aplica típicamente a columnas categóricas en un conjunto de datos, donde cada categoría representa una clase o grupo distinto. Este método generalmente aumenta la dimensionalidad del conjunto de datos porque crea una nueva columna binaria para cada categoría única. El número de columnas binarias es igual al número de categorías únicas menos una, ya que puedes inferir la presencia de la última categoría por la ausencia de todas las demás.

Aquí, estamos usando el nodo One-Hot Encoder para codificar la siguiente columna: “Geography”. Usaremos el nodo One-Hot Encoder navegando a ML operations, seleccionando el componente -> Encoding y eligiendo -> One-Hot Encoder en QuickML para convertir las columnas categóricas seleccionadas en columnas numéricas.
Normalizar las columnas

Navega a ML operations-> Normalization. Arrastra y suelta el nodo Min-Max Normalization en la interfaz del ML pipeline builder. En el cuadro de configuración del panel derecho, elige todas las columnas excepto Exited que es el objetivo y haz clic en Save.
Ingeniería de Características:

La selección de características es el proceso de elegir un subconjunto de las características más relevantes e importantes (variables o columnas) del conjunto de datos para usar en el entrenamiento del modelo y análisis. El objetivo de la selección de características es mejorar el rendimiento, la eficiencia y la interpretabilidad de los modelos de machine learning. La selección de características es particularmente crucial cuando se trabaja con conjuntos de datos de alta dimensionalidad, ya que puede ayudar a reducir el sobreajuste, reducir el tiempo de cómputo y mejorar la interpretabilidad del modelo.

Aquí estamos usando la técnica de selección de características PCA para generar las características. Selecciona el nodo PCA navegando a ML operations, haciendo clic en ->Feature Engineering y eligiendo ->Feature Reduction.
Algoritmo de ML:

El siguiente paso en la construcción del pipeline de ML es seleccionar el algoritmo apropiado para entrenar los datos preprocesados. Aquí usaremos la clasificación Random-Forest para entrenar los datos.

Para asegurarnos de que el modelo esté optimizado para nuestro conjunto de datos particular, también podemos ajustar los parámetros de ajuste; en nuestro caso, podemos simplemente mantener la configuración predeterminada. Selecciona el nodo Random-Forest Classification navegando a ML operations, haciendo clic en ->Algorithms y eligiendo ->Classification. Cuando todo esté configurado, podemos guardar el pipeline para pruebas y despliegue posteriores.
Una vez que arrastramos y soltamos el nodo del algoritmo, su nodo final se conectará automáticamente al nodo de destino. Haz clic en Save para guardar el pipeline y ejecuta el pipeline haciendo clic en el botón Execute en la esquina superior derecha de la página del pipeline builder. Esto te redirigirá a la página a continuación que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver claramente aquí que la ejecución del pipeline fue exitosa.
Haz clic en Execution Stats para ver más detalles de cómputo sobre cada etapa de la ejecución del modelo en detalle.
El modelo de predicción se crea y puede examinarse en la sección Model (haz clic en Churn_Prediction_ML_Pipeline Model) tras la finalización exitosa del flujo de trabajo de ML.
Esto ofrece percepciones útiles sobre la eficiencia y el rendimiento del modelo al hacer predicciones basadas en los datos.

Última actualización 2026-03-20 21:51:56 +0530 IST

ML Algorithms in QuickML Operations in QuickML