Feature Engineering
Feature Generation
Este es el proceso de transformar características que ya existen en nuevas para hacerlas más relevantes para la característica objetivo. Las siguientes técnicas se utilizan en la generación de características:
- Operations - Una técnica de generación de características que genera nuevas características basadas en operaciones matemáticas sobre las características numéricas existentes.
- Autolearn - Un algoritmo de generación de características basado en regresión. Las características se generan minando asociaciones de pares de características, identificando la relación lineal o no lineal entre cada par, aplicando regresión y seleccionando aquellas relaciones que son estables y mejoran el rendimiento de predicción.
- Explorekit - Genera un gran conjunto de características candidatas combinando información en las características originales, con el objetivo de maximizar el rendimiento predictivo según los criterios seleccionados por el usuario.
Feature Selection
Las técnicas a continuación ayudan a disminuir la dimensionalidad del espacio de características, simplificar el modelo y mejorar el rendimiento de generalización del modelo eligiendo un subconjunto de características relevantes de la lista original en el dataset.
- Embedded - Una técnica donde la selección de características se integra en el proceso de entrenamiento de un modelo de aprendizaje automático. El propio modelo decide qué características son más relevantes durante el entrenamiento.
- Filter - Una técnica que implica seleccionar las características más relevantes basándose en sus propiedades estadísticas o puntuaciones de clasificación.
- Redundancy Elimination - Un proceso de eliminación de características de un dataset que proporcionan información similar o duplicada.
- Backward Feature Elimination - Una técnica que comienza con todas las características en el dataset y elimina iterativamente las características menos significativas una a la vez.
- Exhaustive Feature Engineering - Una técnica que considera todas las combinaciones posibles de características para encontrar el subconjunto óptimo que resulta en el mejor rendimiento del modelo.
- Forward Selection - Una técnica que comienza con un conjunto vacío de características y agrega iterativamente las características más significativas una a la vez.
Feature Reduction
Estas técnicas se utilizan para abordar la “maldición de la dimensionalidad”, que es cuando un algoritmo tiene dificultades para entrenar un modelo efectivo debido al gran número de características en el dataset en relación con las observaciones. Se emplean las siguientes técnicas efectivas:
- PCA - Principal Component Analysis (PCA) es una técnica de reducción de dimensionalidad utilizada para transformar datos de alta dimensionalidad en un espacio de menor dimensionalidad mientras se preserva la mayor cantidad posible de variabilidad de los datos originales.
- FA - Factor Analysis (FA) es una técnica estadística utilizada para descubrir variables latentes subyacentes (factores) que explican los patrones de correlaciones entre las variables observadas en un dataset. Se emplea comúnmente para la reducción de dimensionalidad y para obtener información sobre la estructura de datos complejos.
- NMF - NMF (Non-Negative Matrix Factorization) es una técnica de reducción de dimensionalidad y extracción de características que es particularmente útil cuando se trata con datos no negativos, como datos de texto o datos de imagen con intensidades de píxeles.
- ICA - ICA (Independent Component Analysis) es una técnica utilizada para separar una señal multivariada en componentes estadísticamente independientes, asumiendo que los datos observados son una combinación lineal de señales fuente no gaussianas e independientes.
- LDA - LDA (Linear Discriminant Analysis) es una técnica supervisada de reducción de dimensionalidad y clasificación utilizada para encontrar una combinación lineal de características que mejor separa dos o más clases en los datos.
Última actualización 2026-03-24 17:38:39 +0530 IST
Yes
No
Send your feedback to us