Régression logistique

La régression logistique est une technique statistique qui a pour objectif, à partir d'un fichier d'observations, de produire un modèle servant à prédire les valeurs prises par une variable catégorielle, le plus fréquemment binaire, à partir...



Catégories :

Estimation (statistique) - Statistiques

Page(s) en rapport avec ce sujet :

  • La régression logistique est particulièrement répandue pour les problèmes de ... Quand la variable dépendante possède plusieurs catégories non ordonnées (K > 2), on parle de ... notre modèle avec le modèle trivial composé de l'unique constante.... (source : eric.univ-lyon2)
  • La régression logistique est différente du modèle de Cox car elle ne permet pas.... Dans le cadre de la régression logistique, la variable dépendante était... (source : em-consulte)
  • La théorie liée à la régression logistique est présentée et complétée par la démonstration d'exemples concrets.... Présentation du modèle de régression logistique... Linéarité du logit pour les variables indépendantes continues... (source : pinel.qc)

La régression logistique est une technique statistique qui a pour objectif, à partir d'un fichier d'observations, de produire un modèle servant à prédire les valeurs prises par une variable catégorielle, le plus fréquemment binaire, à partir d'une série de variables explicatives continues et/ou binaires.

La régression logistique est beaucoup répandue dans de nombreux domaines. On peut citer de façon non-exhaustive :

Le succès de la régression logistique repose surtout sur les nombreux outils qui permettent d'interpréter de manière approfondie les résultats obtenus.

Comparé aux techniques connues en régression, surtout la régression linéaire, la régression logistique se distingue principalement par le fait que la variable expliquée est catégorielle.

Comme méthode de prédiction pour variable catégorielle, la régression logistique est particulièrement identique aux techniques supervisées proposées en apprentissage automatique (arbre de décision, réseaux de neurones, etc. ), ou encore l'analyse discriminante prédictive en statistique exploratoire. Il est surtout envisageable de les mettre en concurrence pour choisir le modèle le plus adapté pour un problème de prédiction à résoudre.

Notations, hypothèses et estimations

Notations

Dans ce qui suit, nous noterons Y\, la variable à prédire (variable expliquée), X = (X_1, X_2, ..., X_J)\, les variables prédictives (variables explicatives).

Dans le cadre de la régression logistique binaire, la variable Y\, prend deux modalités envisageables {1, 0}\,. Les variables X_j\, sont exclusivement continues ou binaires.

Hypothèse principale

La régression logistique repose sur l'hypothèse principale suivante


\ln \frac{p(X/1)}{p(X/0)} = a_0+a_1x_1+..
_Jx_J


Une vaste classe de distributions répondent à cette spécification, la distribution multinormale déjà vue en analyse discriminante linéaire par exemple, mais également d'autres distributions, surtout celles où les variables explicatives sont booléennes (0/1).

Comparé à l'analyse discriminante toujours, ce ne sont plus les densités conditionnelles p(X/1)\, et p(X/0)\, qui sont modélisées mais le rapport de ces densités. La restriction introduite par l'hypothèse est moins forte.

Le modèle LOGIT

La spécification ci-dessus peut être écrite de manière différente. On sert à désigner par le terme LOGIT de p(1/X)\, l'expression suivante

\ln \frac{p(1/X)}{1-p(1/X)} = b_0+b_1x_1+.._Jx_J


En effet, après transformation de l'équation ci-dessus, nous obtenons

p(1/X) = \frac{eˆ{b_0+b_1x_1+.._Jx_J}}{1+eˆ{b_0+b_1x_1+.._Jx_J}}

Remarque : Equivalence des expressions

Nous sommes partis de deux expressions différentes pour aboutir au modèle logistique. Nous observons ici la concordance entre les cœfficients a_j\, et b_j\,. Reprenons le LOGIT



\ln \frac{p(1/X)}{1-p(1/X)} = \ln \frac{p(1/X)}{p(0/X)}
=\ln \frac{p(1)p(x/1)}{p(0)p(x/0)}
=\ln \frac{p(1)}{p(0)} + \ln \frac{p(x/1)}{p(x/0)}


\ln \frac{p(1/X)}{1-p(1/X)}
=\ln \frac{p(1)}{p(0)} + a_0+a_1x_1+..
_Jx_J

Nous constatons que 
\begin{cases}
b_0 = \ln \frac{p(1)}{p(0)}+a_0 \\
b_j = a_j &, j \ge 1
\end{cases}

Estimation — Principe du maximum de vraisemblance

A partir d'un fichier de données, nous devons estimer les cœfficients b_j\,de la fonction LOGIT. Il est particulièrement rare de disposer pour chaque combinaison envisageable des X_j, (j=1,...,J)\,, même si ces variables sont toutes binaires, de suffisamment d'observations pour disposer d'une estimation fiable des probabilités P(1/X)\, et P(0/X)\,. La méthode des moindres carrés ordinaire est exclue. La solution passe par une autre approche : la maximisation de la vraisemblance.


La probabilité d'appartenance d'un individu \omega\, à un groupe, que nous pouvons aussi voir comme une contribution à la vraisemblance, peut être décrit de la manière suivante

P(Y(\omega)=1/X(\omega))ˆ{Y(\omega)} \times [1 - P(Y(\omega)=1/X(\omega))]ˆ{1 - Y(\omega)}


La vraisemblance d'un échantillon \Omega\, s'écrit alors :

L = \prod_{\omega} P(Y(\omega)=1/X(\omega))ˆ{Y(\omega)} \times [1 - P(Y(\omega)=1/X(\omega))]ˆ{1 - Y(\omega)}

Les paramètres \hat b_j (j=0,...,J)\, qui maximisent cette quantité sont les estimateurs du maximum de vraisemblance de la régression logistique.

L'estimation dans la pratique

Dans la pratique, les logiciels utilisent une procédure approchée pour obtenir une solution satisfaisante de la maximisation ci-dessus. Ce qui explique d'ailleurs pourquoi ils ne fournissent pas forcément des cœfficients strictement semblables. Les résultats dépendent de l'algorithme utilisé et de la précision adoptée lors du paramétrage du calcul.

Dans ce qui suit, nous notons \beta\, le vecteur des paramètres à estimer. La procédure la plus connue est la méthode Newton-Raphson qui est une méthode itérative du gradient (voir Algorithme d'optimisation). Elle s'appuie sur la relation suivante :

\betaˆ{i+1} = \betaˆ{i} - \left ( \frac{\partialˆ2 L}{\partial \beta \partial \beta'} \right )ˆ{-1} \times \frac{\partial L}{\partial \beta}

Cette dernière matrice, dite matrice hessienne, est intéressante car son inverse représente l'estimation de la matrice de variance co-variance de \beta\,. Elle sera mise en contribution dans les différents tests d'hypothèses pour évaluer la significativité des cœfficients.

Évaluation

Matrice de confusion

L'objectif étant de produire un modèle servant à prédire avec le plus de précision envisageable les valeurs prises par une variable catégorielle Y\,, une approche privilégiée pour évaluer la qualité du modèle serait de confronter les valeurs prédites avec les vraies valeurs prises par Y\, : c'est le rôle de la matrice de confusion. On en déduit alors un indicateur simple, le taux d'erreur ou le taux de mauvais classement, qui est le rapport entre le nombre de mauvaises prédictions et la taille de l'échantillon.

Quand la matrice de confusion est construite sur les données qui ont servi à élaborer le modèle, le taux d'erreur est souvent trop optimiste, ne reflétant pas les performances réelles du modèle dans la population. Pour que l'évaluation ne soit pas biaisée, il est conseillé de construire cette matrice sur un échantillon à part, dit échantillon de test . Par opposition à l'échantillon d'apprentissage, il n'aura pas participé à la construction du modèle.

Le principal intérêt de cette méthode est qu'elle sert à comparer n'importe quelle méthode de classement et sélectionner ainsi celle qui s'avère être la plus performante face à un problème donné.

Évaluation statistique de la régression

Il est envisageable d'exploiter un schéma probabiliste pour effectuer des tests d'hypothèses sur la validité du modèle. Ces tests reposent sur la distribution asymptotique des estimateurs du maximum de vraisemblance.

Pour vérifier la significativité globale du modèle, nous pouvons introduire un test analogue à l'évaluation de la régression linéaire multiple. L'hypothèse nulle s'écrit H_0 :  b_1 = b_2 = ... = b_J = 0\,, qu'on oppose à l'hypothèse alternative H_1\, : un des cœfficients au moins est non nul

La statistique du rapport de vraisemblance s'écrit  \Lambda = 2 \times [l(J+1)-l(1)]\,, elle suit une loi du \chiˆ2\, à J\, degrés de libertés.

Si la probabilité critique (la p-value) est inférieure au niveau de signification qu'on s'est fixé, on considère généralement que le modèle est globalement significatif. Reste à savoir quelles sont les variables qui jouent réellement un rôle dans cette relation.

Évaluation individuelle des cœfficients

Dans le cas où on cherche à tester le rôle significatif d'une variable. Nous réalisons le test suivant H_0 : b_j=0\,, contre H_1 : b_j \ne 0\,.

La statistique de WALD répond à ce test , elle s'écrit W = \frac{\hat bˆ2}{\hat V(\hat b)}\,, elle suit une loi du \chiˆ2\, à 1\, degré de liberté.

N. B.  : La variance estimée du cœfficient \hat b_j\, est lue dans l'inverse de la matrice hessienne vue auparavant.

Évaluation d'un bloc de cœfficients

Les deux tests ci-dessus sont des cas spécifiques du test de significativité d'un bloc de cœfficients. Ils découlent du critère de la "déviance" qui compare la vraisemblance entre le modèle courant et le modèle saturé (le modèle dans lequel nous avons l'ensemble des paramètres).

L'hypothèse nulle s'écrit dans ce cas H_0 : \beta (q) = 0\,, où \beta (q)\, représente un ensemble de q\, cœfficients simultanément à zéro.

La statistique du test W(q) = 2 \times [l(J+1)-l(J+1-q)]\, suit une loi du \chiˆ2\, à q\, degrés de libertés.


Ce test peut être particulièrement utile quand nous voulons tester le rôle d'une variable explicative catégorielle à q + 1 modalités dans le modèle. Après recodage, nous introduisons effectivement q\, variables indicatrices dans le modèle. Pour évaluer le rôle de la variable catégorielle prise dans son ensemble, quelle que soit la modalité reconnue, nous devons tester simultanément les cœfficients associés aux variables indicatrices.

Autres évaluations

D'autres procédures d'évaluation sont fréquemment citées s'agissant de la régression logistique. Nous noterons entre autres le test de Hosmer-Lemeshow qui s'appuie sur le «score» (la probabilité d'affectation à un groupe) pour ordonner les observations. En cela, elle se rapproche d'autres procédés d'évaluation de l'apprentissage telles que les courbes ROC qui sont nettement plus riches d'informations que la simple matrice de confusion et le taux d'erreur associé.

Un exemple

À partir des données disponibles sur le site du cours en ligne de Régression logistique (Paul-Marie Bernard, Université du Québec – Chapitre 5), nous avons construit un modèle de prédiction qui vise à expliquer le «Faible Poids (Oui/Non)» d'un bébé à l'apparition. Les variables explicatives sont : FUME (le fait de fumer ou pas au cours de la grossesse), PREM (historique de prématurés aux accouchements antérieurs), HT (historique de l'hypertension), VISITE (nombre de visites chez le médecin durant le premier trimestre de grossesse), AGE (âge de la mère), PDSM (poids de la mère durant les périodes des dernières menstruations), SCOL (niveau de scolarité de la mère : =1 : <12 ans, =2: 12-15 ans, =3: >15 ans).

Toutes les variables explicatives ont été reconnues continues dans cette analyse. Occasionnellemen, SCOL par exemple, il serait peut être plus judicieux de les coder en variables indicatrices.

Lecture des résultats

Les résultats sont consignés dans le tableau suivant.

Résultats de l'exécution de la régression logistique sur le fichier de données



Cette première analyse peut être affinée en procédant à une sélection de variables, en étudiant le rôle concomittant de certaines variables, etc. Le succès de la régression logistique repose précisément en grande partie sur la multiplicité des outils d'interprétations qu'elle propose. Avec les notions d'odds, d'odds ratios et de risque relatif, calculés sur les variables dichotomiques, continues ou sur des combinaisons de variables, le statisticien peut analyser finement les causalités et mettre en évidence les facteurs qui pèsent réellement sur la variable à expliquer.

Déploiement

Pour classer un nouvel individu \omega\,, nous devons appliquer la règle de Bayes :

Y(\omega)=1\, ssi <img class= ssi <img class= ssi <img class= = (FUME = 1 «oui» ; PREM = 1 «un prématuré dans l'historique de la mère» ; HT = 0 «non» ; VISITE = 0 «pas de visite chez le médecin au cours du premier trimestre de grossesse» ; AGE = 28 ; PDSM = 54.55 ; SCOL = 2 «entre 12 et 15 ans»).


En appliquant l'équation ci-dessus, nous trouvons 2?3 + 0?3 \times 1 + 0i1 \times 1 + 1t4 \times 0 + 00 \times 0 - 08 \times 28 - 08 \times 54U - 0f0 \times 2 = 0(125. Le modèle par conséquent prédit un bébé de faible poids pour cette personne.

Ce qui est justifié dans la mesure où il s'agit de l'observation n°131 de notre fichier, et elle a donné lieu effectivement à l'apparition d'un enfant de faible poids.

Redressement

La règle d'affectation ci-dessus est valide si l'échantillon est issu d'un tirage au hasard dans la population. Ce n'est pas forcément le cas. Dans de nombreux domaines, nous fixons au préalable les effectifs des classes Y=1\, et Y=0\,, puis nous procédons au recueil des données dans chacun des groupes. On parle alors de tirage rétrospectif. Il est par conséquent indispensable de procéder à un redressement. Si les cœfficients associés aux variables de la fonction logit ne sont pas modifiés, la constante par contre doit être corrigée en tenant compte des effectifs dans chaque classe (n_1\, et n_0\,) et des vraies probabilités a priori p(1)\, et p(0)\, (cf. les références ci-dessous).

Variantes

La régression logistique s'applique directement quand les variables explicatives sont continues ou dichotomiques. Quand elles sont catégorielles, il est indispensable de procéder à un recodage. Le plus simple est le codage binaire. Prenons l'exemple d'une variable habitat prenons trois modalités {ville, périphérie, autres}. Nous créerons alors deux variables binaires : «habitat_ville», «habitat_périphérie». La dernière modalité se déduit des deux autres, quand les deux variables prennent simultanément la valeur 0, cela indique que l'observation correspond à «habitat = autres».


Enfin, il est envisageable de réaliser une régression logistique pour prédire les valeurs d'une variable catégorielle comportant K (K > 2) modalités. On parle de régression logistique polytomique. La procédure repose sur la désignation d'un groupe de référence, elle produit alors (K-1) combinaisons linéaires pour la prédiction. L'interprétation des cœfficients est moins évidente dans ce cas.

Références

Logiciels

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/R%C3%A9gression_logistique.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu