Crear un data pipeline

# Crear un data pipeline

Ahora que hemos subido el dataset, procederemos a crear un {{%link href="/es/quickml/help/create-data-pipeline/"%}}data pipeline{{%/link%}} con el dataset.

1. Navega al componente **Datasets** en el menú izquierdo. Hay dos formas de crear un data pipeline:
 - Puedes hacer clic en el dataset y luego hacer clic en {{%badge%}}Create Pipeline{{%/badge%}} en la esquina superior derecha de la página.
 
 - Puedes hacer clic en el ícono de lápiz ubicado a la izquierda del nombre del dataset, como se muestra en la imagen a continuación.

2. Nombra el pipeline "**Fraud Detection Data Pipeline**" y haz clic en {{%badge%}}Create Pipeline{{%/badge%}}.

La {{%link href="/es/quickml/help/pipeline-builder-interface/walkthrough/#pipeline-builder-interface-1" %}}interfaz del pipeline builder{{%/link%}} se abrirá como se muestra en la captura de pantalla a continuación.

Realizaremos el siguiente conjunto de operaciones de preprocesamiento de datos para limpiar, refinar y transformar los datasets, y luego ejecutar el data pipeline. Cada una de estas operaciones involucra {{%link href="/es/quickml/help/data-preprocessing/data-cleaning/" %}}nodos de datos{{%/link%}} individuales que se usan para construir el pipeline.

### Preprocesamiento de datos con QuickML
1. #### Seleccionar/eliminar columnas
 Seleccionar o eliminar columnas de un dataset es un paso común de preprocesamiento de datos en análisis de datos y aprendizaje automático. La elección de seleccionar o eliminar columnas depende de los objetivos específicos y los requisitos de tu análisis o tarea de modelado.
 Las columnas que no necesitamos para el entrenamiento de nuestro modelo de este dataset son "**ID**", "**trans_date_trans_time**", "**cc_num**", "**Merchant**", "**First**", "**Last**", "**Street**", "**City**", "**Zip**", "**Lat**", "**Long**", "**job**", "**dob**", "**Trans_num**", "**Unix_Time**", "**merch_lat**", "**merch_long**" en los datasets proporcionados. Usando QuickML, puedes seleccionar rápidamente los campos necesarios del dataset para el entrenamiento del modelo usando el nodo **Select/Drop** del componente **Data Cleaning**.

2. #### Filtrar datos
 Filtrar un dataset típicamente involucra seleccionar un subconjunto de filas de un DataFrame que cumplen ciertos criterios o condiciones. Aquí estamos usando el nodo [Filter](http://localhost:1313/es/quickml/help/data-preprocessing/data-cleaning/#filter) de la sección Data Cleaning para filtrar la columna "**state**" cuyos valores no están vacíos.

3. #### Guardar y ejecutar
 Ahora, conecta el [nodo](http://localhost:1313/es/quickml/help/data-preprocessing/data-cleaning/#filter) {{%badge%}}Filter{{%/badge%}} al nodo {{%badge%}}Destination{{%/badge%}}. Una vez que todos los nodos estén conectados, haz clic en el botón {{%badge%}}Save{{%/badge%}} para guardar el pipeline. Luego haz clic en el botón {{%badge%}}Execute{{%/badge%}} para ejecutar el pipeline.

Serás redirigido a la página que se muestra a continuación, que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver aquí que la ejecución del pipeline fue exitosa.

Haz clic en {{%badge%}}Execution Stats{{%/badge%}} para acceder a más detalles sobre el uso de cómputo, como se muestra a continuación.

En esta parte, hemos visto cómo procesar datos usando QuickML, brindándote una variedad de formas efectivas de preparar tus datos para la creación de modelos de aprendizaje automático. Este data pipeline puede reutilizarse para crear múltiples experimentos de ML para casos de uso variados dentro de tu proyecto de Catalyst.

Ahora que hemos subido el dataset, procederemos a crear un data pipeline con el dataset.

Navega al componente Datasets en el menú izquierdo. Hay dos formas de crear un data pipeline:
- Puedes hacer clic en el dataset y luego hacer clic en Create Pipeline en la esquina superior derecha de la página.
- Puedes hacer clic en el ícono de lápiz ubicado a la izquierda del nombre del dataset, como se muestra en la imagen a continuación.
Nombra el pipeline “Fraud Detection Data Pipeline” y haz clic en Create Pipeline.

La interfaz del pipeline builder se abrirá como se muestra en la captura de pantalla a continuación.

Realizaremos el siguiente conjunto de operaciones de preprocesamiento de datos para limpiar, refinar y transformar los datasets, y luego ejecutar el data pipeline. Cada una de estas operaciones involucra nodos de datos individuales que se usan para construir el pipeline.

Preprocesamiento de datos con QuickML

Seleccionar/eliminar columnas

Seleccionar o eliminar columnas de un dataset es un paso común de preprocesamiento de datos en análisis de datos y aprendizaje automático. La elección de seleccionar o eliminar columnas depende de los objetivos específicos y los requisitos de tu análisis o tarea de modelado. Las columnas que no necesitamos para el entrenamiento de nuestro modelo de este dataset son “ID”, “trans_date_trans_time”, “cc_num”, “Merchant”, “First”, “Last”, “Street”, “City”, “Zip”, “Lat”, “Long”, “job”, “dob”, “Trans_num”, “Unix_Time”, “merch_lat”, “merch_long” en los datasets proporcionados. Usando QuickML, puedes seleccionar rápidamente los campos necesarios del dataset para el entrenamiento del modelo usando el nodo Select/Drop del componente Data Cleaning.
Filtrar datos

Filtrar un dataset típicamente involucra seleccionar un subconjunto de filas de un DataFrame que cumplen ciertos criterios o condiciones. Aquí estamos usando el nodo Filter de la sección Data Cleaning para filtrar la columna “state” cuyos valores no están vacíos.
Guardar y ejecutar

Ahora, conecta el nodo Filter al nodo Destination. Una vez que todos los nodos estén conectados, haz clic en el botón Save para guardar el pipeline. Luego haz clic en el botón Execute para ejecutar el pipeline.

Serás redirigido a la página que se muestra a continuación, que muestra el pipeline ejecutado con el estado de ejecución. Podemos ver aquí que la ejecución del pipeline fue exitosa.

Haz clic en Execution Stats para acceder a más detalles sobre el uso de cómputo, como se muestra a continuación.

Última actualización 2026-03-20 21:51:56 +0530 IST

Data Cleaning Data Transformation Data Profiler and Viewer