Sélection de termes

Utilisez cette méthode pour faire une régression sur une matrice documents-termes. Disponible dans Excel avec le logiciel XLSTAT.

DESCRIPTION DE LA SÉLECTION DE TERMES

La sélection de termes utilise la très célèbre méthode de régression Elastic-net ainsi que sa version logistique. En effet, cela permet de modéliser des variables quantitatives mais aussi binomiales (typiquement binaires) et multinomiales (variables qualitatives à plus de deux modalités).

La sélection de termes est une méthode utilisée dans le cas du text mining, où la matrice documents-termes remplace les variables quantitatives explicatives, et le vecteur de sentiment est la variable réponse donnant le sentiment ("positif", "négatif", etc.) de chaque document ou sa note (indication quantitative de l'opinion).

La régression Elastic-net est basée sur deux paramètres fondamentaux : le paramètre de compromis α (compris entre 0 et 1) et le paramètre de régularisation λ>0. XLSTAT offre la possibilité de trouver le λ optimal par validation croisée.

OPTIONS DE LA SÉLECTION DE TERMES DANS XLSTAT

Variable réponse : sélectionnez la variable réponse à modéliser. Si l'option « Libellés des colonnes » est activée, la première cellule de la sélection doit comprendre un en-tête.

Type de réponse : sélectionner le type de la variable réponse.

  • Gaussien : si votre variable réponse est quantitative, choisissez ce type pour ajuster un modèle de régression ;
  • Poisson : si votre variable réponse est quantitative, choisissez ce type pour ajuster un modèle de régression ;
  • Binomiale : si votre variable réponse est binaire, choisissez ce type pour ajuster un modèle de régression logistique ;
  • Multinomiale : si votre variable réponse comporte plus de deux catégories, choisissez ce type pour ajuster un modèle de régression logistique.

Fréquences des termes : sélectionnez les fréquences des termes dont une colonne correspond aux fréquences d'un terme dans chaque document. Les données doivent être quantitative. Si l'option « Libellés des colonnes » est activée, la première cellule de la sélection doit comprendre un en-tête.

Alpha : α correspond au paramètre compromis compris entre 0 et 1. Quand α=1, c'est la pénalité LASSO qui est appliquée, et quand α=0 c'est la pénalité Ridge.

Lambda : choisissez les valeurs de λ à tester pendant la validation croisée.

  • Automatique : sélectionnez cette option pour générer automatiquement des valeurs de λ.

    • Nombre de valeurs de lambda : entrez le nombre de valeurs de λ à générer. Valeur par défaut : 100.
  • Valeurs de lambda personnalisées : sélectionnez cette option pour entrer manuellement les valeurs de λ en sélectionnant une colonne contenant autant de lignes que de valeurs de λ à tester.

  • Itérations : entrez le nombre maximal d'itérations. Les calculs sont interrompus dès que le nombre maximal d'itérations est dépassé. Valeur par défaut : 10000.

Nombre de blocs : entrez le nombre de blocs à constituer pour la validation croisée. Valeur par défaut : 10.

Maximum variables : entrez le nombre maximum de variables à utiliser dans le modèle.

Fréquence de termes (Prédiction) : activez cette option si vous souhaitez sélectionner des données à utiliser en mode prédiction. Si vous activez cette option, vous devez veiller à ce que les données de prédiction soient organisées comme les données d'estimation : mêmes variables, même ordre dans les sélections. Si l'option « Libellés des colonnes » est activée, la première cellule de la sélection doit comprendre un en-tête.

Libellés des documents (Prédiction) : activez cette option si vous voulez utiliser des libellés d'observations disponibles sur une feuille Excel pour l'affichage des résultats. Si l'option « Libellés des colonnes » est activée, la première cellule de la sélection doit comprendre un en-tête. Si vous n'activez pas cette option, des libellés seront automatiquement créés (PredDoc1, PredDoc2, …).

Sélectionnez les coefficients selon le : sélectionnez les coefficients selon le λ optimal de votre choix.

  • Lambda minimum : sélectionnez cette option pour choisir les coefficients associés au λ qui donne la plus petite erreur moyenne de validation croisée ;
  • Lambda 1se : sélectionnez cette option pour choisir les coefficients associés au λ donnant le modèle le plus régularisé tel que l'erreur de validation croisée est à un écart-type du minimum.

Lambda optimaux : activez cette option pour afficher un tableau donnant les valeurs et les degrés de liberté associés aux λ.

Coefficients : activez cette option pour afficher les coefficients triés de chaque terme.

Odds ratio : activez cette option pour afficher les odds ratio de chaque terme dans le même tableau que les coefficients.

Fréquences des termes : activez cette option pour afficher la fréquence totale de chaque terme dans le même tableau que les coefficients.

Afficher les coefficients non-nuls seulement : activez cette option pour afficher seulement les termes avec une influence sur le modèle. Les termes avec des coefficients nuls, leur odd ratio et leur fréquence sont supprimés du tableau "Résultats par terme".

Résultats par document : activez cette option pour afficher la variable réponse et la prédiction pour chaque document et les probabilités pour la classification.

Matrice de confusion : cette option est uniquement disponible pour la classification. Elle permet d'afficher la matrice de confusion des résultats de prédiction sur l'échantillon d'apprentissage. La matrice de confusion contient les informations concernant les classifications observées et prédites par l'algorithme. Les performances de l'algorithme peuvent être évaluées au moyen de cette matrice de confusion. La diagonale contient les prédictions correctes. Plus la somme des éléments de la diagonale est importante, meilleur est le classifieur.

Coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression.

Coefficients : activez cette option pour afficher un diagramme en barre montrant les coefficients associés à chaque terme.

Odds ratio : activez cette option pour afficher un diagramme en barre montrant les odds ratio.

Évolution de la déviance : activez cette option pour afficher un graphique montrant la courbe de validation croisée avec ses courbes d'écart-type supérieure et inférieure, en tant que fonction des valeurs de λ automatiquement générées ou entrées manuellement (voir l'onglet Options). Le λ minimum est tracé en rouge tandis que λ 1se est tracé en bleu sur ce graphique. Si les deux λ sont égaux, seul le λ minimum est tracé.

RÉSULTATS DE LA SÉLECTION DE TERMES DANS XLSTAT

Résultats associés aux termes : ce tableau donne un aperçu de l'influence de chaque terme. Les coefficient et odd ratio permettent de savoir si un terme est important ou non dans le modèle. Le coefficient donne l'intensité et la direction de l'influence tandis que l'odd ratio donne la probabilité de prédire la classe cible vs une autre valeur. Par exemple, si la classe cible est "Positive" et la deuxième est "Négative" et que l'odd ratio pour le terme "good" est 3, cela signifie que le document qui contient "good" aura trois fois plus de chance d'être prédit "Positive" qu'un document n'ayant pas ce terme. La colonne des fréquences aide à savoir si le coefficient est influencé par une fréquence élevée. Si tous les coefficients sont nuls, la constante est la seule à être affichée sur les graphiques. Pour avoir plus de coefficients non-nuls, nous vous suggérons de diminuer la valeur d'α.

Résultats associés aux matrices de confusion : Les matrices de confusion sont déduites des classifications obtenues et de la classe effective ainsi que les pourcentages d'observations correctement classifiées.

Résultats associés aux coefficients d'ajustement : dans ce tableau sont affichées les statistiques relatives à l'ajustement du modèle de régression :

  • Observations : le nombre d'observations prises en compte dans les calculs ;
  • DDL : le nombre de degrés de liberté pour le modèle retenu (ce nombre est égal au nombre de coefficients non-nuls dans le modèle) ;
  • Déviance : correspond à la perte, pour le modèle Gaussien il s'agit de l'erreur au carré, pour le modèle de Poisson il s'agit de la déviance et pour la classification binomiale ou multinomiale il s'agit de l'erreur de classification ;
  • AIC : le critère d'information d'Akaike (Akaike's Information Criterion) ;
  • AICc : le critère d'information d'Akaike corrigé (Corrected Akaike's Information Criterion) ;
  • SBC : le critère bayésien de Schwarz (Schwarz's Bayesian Criterion).

Résultats associés aux documents : ce tableau donne un aperçu des prédictions des documents. Pour le cas de la classification, les probabilités de la classe cible sont affichées pour la classification binomiale et les probabilités de toutes les classes sont affichées pour la classification multinomiale. Remarque : la classe cible est la dernière classe dans l'ordre alphabétique.

ternary diagramneural network diagram

analysez vos données avec xlstat

essayez gratuitement pendant 14 jours