Algoritmos de Text Analytics

# Algoritmos de Text Analytics

Los datos de texto se alimentan a los algoritmos en forma vectorizada para generar un modelo de NLP. Los modelos de NLP podrían clasificarse ampliamente en modelos de aprendizaje supervisado y no supervisado. En QuickML, tenemos algoritmos que utilizan datos etiquetados para construir modelos de aprendizaje supervisado.

Los algoritmos incluyen:
 - Naive Bayes
 - Support vector machine (SVM)

### Naive Bayes

Un algoritmo de clasificación que funciona basándose en el teorema bayesiano con la suposición ingenua de que existe una independencia condicional entre cada par de características consideradas. El teorema de Bayes calcula la probabilidad P(c|x) donde c es la clase de las posibles etiquetas objetivo y x es la instancia dada que debe clasificarse, representando ciertas características.

P(c|x) = P(x|c) * P(c) / P(x)

Hiperparámetros:

Parámetros:

1.  **priors: array-like of shape (n_classes,), default=None**
    Probabilidades a priori de las clases. Si se especifican, las probabilidades a priori no se ajustan según los datos.

2.  **var_smoothing: float, default=1e-9**
    Porción de la varianza más grande de todas las características que se añade a las varianzas para la estabilidad del cálculo.

Atributos:

1.  **class_count_: ndarray of shape (n_classes,)**
 número de muestras de entrenamiento observadas en cada clase.

2.  **class_prior_: ndarray of shape (n_classes,)**
 probabilidad de cada clase.

3.  **classes_: ndarray of shape (n_classes,)**
  etiquetas de clase conocidas por el clasificador.

4. **epsilon_: float**
 valor aditivo absoluto a las varianzas.

5.  **n_features_in_: int**
 Número de características vistas durante el ajuste.

6. **feature_names_in_: ndarray of shape (n_features_in_,)**
 Nombres de las características vistas durante el ajuste. Definido solo cuando X tiene nombres de características que son todas cadenas de texto.

7.  **var_: ndarray of shape (n_classes, n_features)**
  Varianza de cada característica por clase.

8.  **theta_: ndarray of shape (n_classes, n_features)**
  Media de cada característica por clase.

### Support vector machine (SVM)

SVM es otro algoritmo popular de aprendizaje automático para clasificación que clasifica datos determinando el mejor hiperplano (límite de decisión).

#### Hiperparámetros:

1.  **C : float, default=1.0**

Parámetro de regularización. La fuerza de la regularización es inversamente proporcional a C. Debe ser estrictamente positivo. La penalización es una penalización l2 al cuadrado.

2. **kernel: {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'} or callable, default='rbf'**

Especifica el tipo de kernel a utilizar en el algoritmo. Si no se proporciona ninguno, se utilizará 'rbf'. Si se proporciona un callable, se utiliza para precalcular la matriz del kernel a partir de las matrices de datos; dicha matriz debe ser un array de forma (n_samples, n_samples).

3. **degree: int, default=3**

Grado de la función kernel polinómica ('poly'). Debe ser no negativo. Ignorado por todos los demás kernels.

4. **gamma: {'scale', 'auto'} or float, default='scale'**

Coeficiente del kernel para 'rbf', 'poly' y 'sigmoid'.
    - si gamma= 'scale' (predeterminado) se utiliza 1 / (n_features * X.var()) como valor de gamma,
    - si 'auto', utiliza 1 / n_features
    - si es float, debe ser no negativo.

5. **coef0: float, default=0.0**
    
    Término independiente en la función kernel. Solo es significativo en 'poly' y 'sigmoid'.

6. **shrinking: bool, default=True**

Si se debe usar la heurística de reducción. Consulte la Guía del Usuario.

7. **probability: bool, default=False**

Si se deben habilitar las estimaciones de probabilidad. Esto debe estar habilitado antes de llamar a fit, ralentizará ese método ya que internamente utiliza validación cruzada de 5 pliegues, y predict_proba puede ser inconsistente con predict. Lea más en la Guía del Usuario.

8. **Tolerance: float, default=1e-3**

Tolerancia para el criterio de parada.

9. **cache_size: float, default=200**

Especifica el tamaño de la caché del kernel (en MB).

10. **class_weight: dict or 'balanced', default=None**

Establece el parámetro C de la clase i a class_weight[i]*C para SVC. Si no se proporciona, se supone que todas las clases tienen peso uno. El modo "balanced" utiliza los valores de y para ajustar automáticamente los pesos de forma inversamente proporcional a las frecuencias de clase en los datos de entrada como n_samples / (n_classes * np.bincount(y)).

11. **verbose: bool, default=False**

Habilita la salida detallada. Tenga en cuenta que esta configuración aprovecha una configuración de tiempo de ejecución por proceso en libsvm que, si está habilitada, puede no funcionar correctamente en un contexto multihilo.

12. **max_iter: int, default=-1**

Límite estricto en las iteraciones dentro del solver, o -1 sin límite.

13. **decision_function_shape: {'ovo', 'ovr'}, default='ovr'**

Si se debe devolver una función de decisión uno-contra-todos ('ovr') de forma (n_samples, n_classes) como todos los demás clasificadores, o la función de decisión original uno-contra-uno ('ovo') de libsvm que tiene forma (n_samples, n_classes * (n_classes - 1) / 2). Sin embargo, tenga en cuenta que internamente, uno-contra-uno ('ovo') siempre se utiliza como estrategia multiclase para entrenar modelos; una matriz ovr solo se construye a partir de la matriz ovo. El parámetro se ignora para la clasificación binaria.

14. **break_ties: bool, default=False**

Si es verdadero, decision_function_shape='ovr', y el número de clases > 2, predict romperá los empates según los valores de confianza de decision_function; de lo contrario, se devuelve la primera clase entre las clases empatadas. Tenga en cuenta que romper empates tiene un costo computacional relativamente alto en comparación con una predicción simple.

15. **random_state: int, RandomState instance or None, default=None**

Controla la generación de números pseudoaleatorios para mezclar los datos para las estimaciones de probabilidad. Se ignora cuando probability es False. Pase un int para una salida reproducible en múltiples llamadas a funciones.

Los algoritmos incluyen:

Naive Bayes
Support vector machine (SVM)

Naive Bayes

P(c|x) = P(x|c) * P(c) / P(x)

Hiperparámetros:

Parámetros:

priors: array-like of shape (n_classes,), default=None Probabilidades a priori de las clases. Si se especifican, las probabilidades a priori no se ajustan según los datos.
var_smoothing: float, default=1e-9 Porción de la varianza más grande de todas las características que se añade a las varianzas para la estabilidad del cálculo.

Atributos:

class_count_: ndarray of shape (n_classes,) número de muestras de entrenamiento observadas en cada clase.
class_prior_: ndarray of shape (n_classes,) probabilidad de cada clase.
classes_: ndarray of shape (n_classes,) etiquetas de clase conocidas por el clasificador.
epsilon_: float valor aditivo absoluto a las varianzas.
n_features_in_: int Número de características vistas durante el ajuste.
feature_names_in_: ndarray of shape (n_features_in_,) Nombres de las características vistas durante el ajuste. Definido solo cuando X tiene nombres de características que son todas cadenas de texto.
var_: ndarray of shape (n_classes, n_features) Varianza de cada característica por clase.
theta_: ndarray of shape (n_classes, n_features) Media de cada característica por clase.

Support vector machine (SVM)

SVM es otro algoritmo popular de aprendizaje automático para clasificación que clasifica datos determinando el mejor hiperplano (límite de decisión).

Hiperparámetros:

C : float, default=1.0

Parámetro de regularización. La fuerza de la regularización es inversamente proporcional a C. Debe ser estrictamente positivo. La penalización es una penalización l2 al cuadrado.
kernel: {’linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’} or callable, default=‘rbf’

Especifica el tipo de kernel a utilizar en el algoritmo. Si no se proporciona ninguno, se utilizará ‘rbf’. Si se proporciona un callable, se utiliza para precalcular la matriz del kernel a partir de las matrices de datos; dicha matriz debe ser un array de forma (n_samples, n_samples).
degree: int, default=3

Grado de la función kernel polinómica (‘poly’). Debe ser no negativo. Ignorado por todos los demás kernels.
gamma: {‘scale’, ‘auto’} or float, default=‘scale’

Coeficiente del kernel para ‘rbf’, ‘poly’ y ‘sigmoid’.
- si gamma= ‘scale’ (predeterminado) se utiliza 1 / (n_features * X.var()) como valor de gamma,
- si ‘auto’, utiliza 1 / n_features
- si es float, debe ser no negativo.
coef0: float, default=0.0

Término independiente en la función kernel. Solo es significativo en ‘poly’ y ‘sigmoid’.
shrinking: bool, default=True

Si se debe usar la heurística de reducción. Consulte la Guía del Usuario.
probability: bool, default=False

Si se deben habilitar las estimaciones de probabilidad. Esto debe estar habilitado antes de llamar a fit, ralentizará ese método ya que internamente utiliza validación cruzada de 5 pliegues, y predict_proba puede ser inconsistente con predict. Lea más en la Guía del Usuario.
Tolerance: float, default=1e-3

Tolerancia para el criterio de parada.
cache_size: float, default=200

Especifica el tamaño de la caché del kernel (en MB).
class_weight: dict or ‘balanced’, default=None

Establece el parámetro C de la clase i a class_weight[i]*C para SVC. Si no se proporciona, se supone que todas las clases tienen peso uno. El modo “balanced” utiliza los valores de y para ajustar automáticamente los pesos de forma inversamente proporcional a las frecuencias de clase en los datos de entrada como n_samples / (n_classes * np.bincount(y)).
verbose: bool, default=False

Habilita la salida detallada. Tenga en cuenta que esta configuración aprovecha una configuración de tiempo de ejecución por proceso en libsvm que, si está habilitada, puede no funcionar correctamente en un contexto multihilo.
max_iter: int, default=-1

Límite estricto en las iteraciones dentro del solver, o -1 sin límite.
decision_function_shape: {‘ovo’, ‘ovr’}, default=‘ovr’

Si se debe devolver una función de decisión uno-contra-todos (‘ovr’) de forma (n_samples, n_classes) como todos los demás clasificadores, o la función de decisión original uno-contra-uno (‘ovo’) de libsvm que tiene forma (n_samples, n_classes * (n_classes - 1) / 2). Sin embargo, tenga en cuenta que internamente, uno-contra-uno (‘ovo’) siempre se utiliza como estrategia multiclase para entrenar modelos; una matriz ovr solo se construye a partir de la matriz ovo. El parámetro se ignora para la clasificación binaria.
break_ties: bool, default=False

Si es verdadero, decision_function_shape=‘ovr’, y el número de clases > 2, predict romperá los empates según los valores de confianza de decision_function; de lo contrario, se devuelve la primera clase entre las clases empatadas. Tenga en cuenta que romper empates tiene un costo computacional relativamente alto en comparación con una predicción simple.
random_state: int, RandomState instance or None, default=None

Controla la generación de números pseudoaleatorios para mezclar los datos para las estimaciones de probabilidad. Se ignora cuando probability es False. Pase un int para una salida reproducible en múltiples llamadas a funciones.

Última actualización 2026-03-24 17:38:39 +0530 IST

Yes

Thank you for your feedback!

Send your feedback to us

Skip

Submit