Crear un pipeline de datos

# Crear un pipeline de datos

Ahora que hemos subido el conjunto de datos, procederemos a crear un pipeline de datos con el conjunto de datos.

1. Navega al componente **Datasets** en el menú izquierdo. Hay dos formas de crear un pipeline de datos:
 - Puedes hacer clic en el conjunto de datos y luego hacer clic en Create Pipeline en la esquina superior derecha de la página.
 
 - Puedes hacer clic en el icono de lápiz ubicado a la izquierda del nombre del conjunto de datos, como se muestra en la imagen a continuación.

Aquí, estamos subiendo el conjunto de datos **Churn_1** para preprocesamiento. **Churn_2** se agregará a este conjunto de datos en los próximos pasos de preprocesamiento.

2. Nombra el pipeline "**Churn Prediction Data Pipeline**" y haz clic en Create Pipeline.

Se abrirá la interfaz del pipeline builder como se muestra en la captura de pantalla a continuación.

Realizaremos el siguiente conjunto de operaciones de preprocesamiento de datos para limpiar, refinar y transformar los conjuntos de datos, y luego ejecutaremos el pipeline de datos. Cada una de estas operaciones involucra nodos de datos individuales que se usan para construir el pipeline.

### Preprocesamiento de datos con QuickML
1. #### Combinar dos conjuntos de datos
 Con la ayuda de QuickML, podemos agregar un nuevo conjunto de datos (ten en cuenta que primero debes subir el conjunto de datos que deseas agregar). Aquí, estamos agregando el conjunto de datos **Churn_2** para fusionarlo con el conjunto de datos existente. Se puede dar un nombre personalizado para el nodo en la sección Custom Name, aquí no cambiamos el nombre predeterminado **Add dataset**. Luego haz clic en el botón Save.
 
 - Haz clic en Data Extraction en el panel izquierdo y elige el [nodo](/es/quickml/help/data-preprocessing/data-extraction/#add-dataset) Add Dataset. Esto te ayudará a agregar un nuevo conjunto de datos (Churn_2) al pipeline.
 - Selecciona Data Transformation en el panel izquierdo y elige el [nodo](/es/quickml/help/data-preprocessing/data-transformation/#union) Union. Luego realiza una conexión entre los nodos uniendo los enlaces entre los dos nodos. Esto ayudará a combinar estos dos conjuntos de datos proporcionados, **Churn_1** y **Churn_2**, en un único conjunto de datos.
 - Si existen registros duplicados en cualquiera de los conjuntos de datos, asegúrate de marcar la casilla etiquetada "**Drop Duplicate Records**" al realizar la operación. Luego haz clic en el botón Save. Esto eliminará los registros duplicados de ambos conjuntos de datos.

2. #### Seleccionar/eliminar columnas
 Seleccionar o eliminar columnas de un conjunto de datos es un paso común de preprocesamiento de datos en análisis de datos y machine learning. La elección de seleccionar o eliminar columnas depende de los objetivos y requisitos específicos de tu tarea de análisis o modelado.
 Las columnas que no necesitamos para el entrenamiento de nuestro modelo de este conjunto de datos son "**security_no**", "**joining_date**", "**avg_frequency_login_days**", "**last_visit_time**" y "**referral_id**" en los conjuntos de datos proporcionados. Usando QuickML, puedes seleccionar rápidamente los campos necesarios del conjunto de datos para el entrenamiento del modelo usando el [nodo](/es/quickml/help/data-preprocessing/data-cleaning/#select-or-drop) **Select/Drop** del componente Data Cleaning.

3. #### Rellenar columnas del conjunto de datos con valores
 Usando el [nodo](/es/quickml/help/data-preprocessing/data-cleaning/#fill-columns) Fill Columns en QuickML, podemos rellenar fácilmente los valores de las columnas basándose en cierta condición. Podemos rellenar los valores nulos o no nulos según nuestros requisitos. Aquí estamos rellenando las columnas "**joined_through_referral**" y "**medium_of_operation**" con un valor personalizado "**Not mentioned**" para las filas con "**?**". Para la columna "**points_in_wallet**", estamos reemplazando los valores vacíos con un valor personalizado de "**0**".
 
 Del menú desplegable, elige el **tipo de dato** apropiado para la columna.
 
 Haz clic en el botón "+" para agregar múltiples criterios, luego haz clic en el botón Save una vez que los criterios estén seleccionados.

4. #### Filtrar datos
 Filtrar un conjunto de datos generalmente implica seleccionar un subconjunto de filas de un DataFrame que cumplan ciertos criterios o condiciones. Aquí estamos usando el [nodo](/es/quickml/help/data-preprocessing/data-cleaning/#filter) Filter de la sección Data Cleaning para filtrar las columnas "**days_since_last_login**", "**avg_time_spent**" y "**points_in_wallet**" cuyos valores son mayores o iguales a "**0**" y para las columnas "**preferred_offer_types**" y "**region_category**" que tienen valores no vacíos usando el [nodo](/es/quickml/help/data-preprocessing/data-cleaning/#filter) Filter de la sección Data Cleaning.

5. #### Análisis de Sentimiento
 El Análisis de Sentimiento es una técnica usada para determinar el sentimiento o tono emocional expresado en un texto, como comentarios o reseñas de clientes. El objetivo del análisis de sentimiento es clasificar el texto como positivo, negativo o neutral basándose en las emociones u opiniones que transmite.
 Aquí tenemos la columna llamada "**feedback**" que contiene los comentarios sobre el producto. Podemos clasificar los valores de la columna como positivos, negativos o neutrales usando el [nodo](/es/quickml/help/zia-features/#zia-sentiment-analysis) **Sentiment Analysis** bajo **Zia Features**.
 Marca la casilla junto a Replace in place si deseas reemplazar el valor de la columna "**feedback**" con el resultado del nodo Sentiment Analysis.

6. #### Guardar y ejecutar
 Ahora, conecta el [nodo](/es/quickml/help/zia-features/#zia-sentiment-analysis) Sentiment Analysis al nodo Destination. Una vez que todos los nodos estén conectados, haz clic en el botón Save para guardar el pipeline. Luego haz clic en el botón Execute para ejecutar el pipeline.

Serás redirigido a la página a continuación, que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver aquí que la ejecución del pipeline fue exitosa.

Haz clic en Execution Stats para acceder a más detalles sobre el uso de cómputo, como se muestra a continuación.

En esta parte, hemos visto cómo procesar datos usando QuickML, dándote una variedad de formas efectivas de preparar tus datos para la creación de modelos de machine learning. Este pipeline de datos puede reutilizarse para crear múltiples experimentos de ML para diversos casos de uso dentro de tu proyecto de Catalyst.

Ahora que hemos subido el conjunto de datos, procederemos a crear un pipeline de datos con el conjunto de datos.

Navega al componente Datasets en el menú izquierdo. Hay dos formas de crear un pipeline de datos:

Puedes hacer clic en el conjunto de datos y luego hacer clic en Create Pipeline en la esquina superior derecha de la página.
Puedes hacer clic en el icono de lápiz ubicado a la izquierda del nombre del conjunto de datos, como se muestra en la imagen a continuación.

Aquí, estamos subiendo el conjunto de datos Churn_1 para preprocesamiento. Churn_2 se agregará a este conjunto de datos en los próximos pasos de preprocesamiento.

Nombra el pipeline “Churn Prediction Data Pipeline” y haz clic en Create Pipeline.

Se abrirá la interfaz del pipeline builder como se muestra en la captura de pantalla a continuación.

Preprocesamiento de datos con QuickML

Combinar dos conjuntos de datos

Con la ayuda de QuickML, podemos agregar un nuevo conjunto de datos (ten en cuenta que primero debes subir el conjunto de datos que deseas agregar). Aquí, estamos agregando el conjunto de datos Churn_2 para fusionarlo con el conjunto de datos existente. Se puede dar un nombre personalizado para el nodo en la sección Custom Name, aquí no cambiamos el nombre predeterminado Add dataset. Luego haz clic en el botón Save.
- Haz clic en Data Extraction en el panel izquierdo y elige el nodo Add Dataset. Esto te ayudará a agregar un nuevo conjunto de datos (Churn_2) al pipeline.
- Selecciona Data Transformation en el panel izquierdo y elige el nodo Union. Luego realiza una conexión entre los nodos uniendo los enlaces entre los dos nodos. Esto ayudará a combinar estos dos conjuntos de datos proporcionados, Churn_1 y Churn_2, en un único conjunto de datos.
- Si existen registros duplicados en cualquiera de los conjuntos de datos, asegúrate de marcar la casilla etiquetada “Drop Duplicate Records” al realizar la operación. Luego haz clic en el botón Save. Esto eliminará los registros duplicados de ambos conjuntos de datos.
Seleccionar/eliminar columnas

Seleccionar o eliminar columnas de un conjunto de datos es un paso común de preprocesamiento de datos en análisis de datos y machine learning. La elección de seleccionar o eliminar columnas depende de los objetivos y requisitos específicos de tu tarea de análisis o modelado. Las columnas que no necesitamos para el entrenamiento de nuestro modelo de este conjunto de datos son “security_no”, “joining_date”, “avg_frequency_login_days”, “last_visit_time” y “referral_id” en los conjuntos de datos proporcionados. Usando QuickML, puedes seleccionar rápidamente los campos necesarios del conjunto de datos para el entrenamiento del modelo usando el nodo Select/Drop del componente Data Cleaning.
Rellenar columnas del conjunto de datos con valores

Usando el nodo Fill Columns en QuickML, podemos rellenar fácilmente los valores de las columnas basándose en cierta condición. Podemos rellenar los valores nulos o no nulos según nuestros requisitos. Aquí estamos rellenando las columnas “joined_through_referral” y “medium_of_operation” con un valor personalizado “Not mentioned” para las filas con “?”. Para la columna “points_in_wallet”, estamos reemplazando los valores vacíos con un valor personalizado de “0”.
Del menú desplegable, elige el tipo de dato apropiado para la columna.
Haz clic en el botón “+” para agregar múltiples criterios, luego haz clic en el botón Save una vez que los criterios estén seleccionados.
Filtrar datos

Filtrar un conjunto de datos generalmente implica seleccionar un subconjunto de filas de un DataFrame que cumplan ciertos criterios o condiciones. Aquí estamos usando el nodo Filter de la sección Data Cleaning para filtrar las columnas “days_since_last_login”, “avg_time_spent” y “points_in_wallet” cuyos valores son mayores o iguales a “0” y para las columnas “preferred_offer_types” y “region_category” que tienen valores no vacíos usando el nodo Filter de la sección Data Cleaning.
Análisis de Sentimiento

El Análisis de Sentimiento es una técnica usada para determinar el sentimiento o tono emocional expresado en un texto, como comentarios o reseñas de clientes. El objetivo del análisis de sentimiento es clasificar el texto como positivo, negativo o neutral basándose en las emociones u opiniones que transmite. Aquí tenemos la columna llamada “feedback” que contiene los comentarios sobre el producto. Podemos clasificar los valores de la columna como positivos, negativos o neutrales usando el nodo Sentiment Analysis bajo Zia Features. Marca la casilla junto a Replace in place si deseas reemplazar el valor de la columna “feedback” con el resultado del nodo Sentiment Analysis.
Guardar y ejecutar

Ahora, conecta el nodo Sentiment Analysis al nodo Destination. Una vez que todos los nodos estén conectados, haz clic en el botón Save para guardar el pipeline. Luego haz clic en el botón Execute para ejecutar el pipeline.

Serás redirigido a la página a continuación, que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver aquí que la ejecución del pipeline fue exitosa.

Haz clic en Execution Stats para acceder a más detalles sobre el uso de cómputo, como se muestra a continuación.

Última actualización 2026-03-20 21:51:56 +0530 IST

Data Cleaning Data Transformation Data Profiler and Viewer