Maximum de vraisemblance

L'estimation du maximum de vraisemblance est une méthode statistique courante utilisée pour inférer les paramètres de la distribution de probabilité d'un échantillon donné.



Catégories :

Optimisation - Estimation (statistique) - Statistiques - Algorithmique

Page(s) en rapport avec ce sujet :

  • Exemple : ajustement d'un loi à des données. Échantillon de données : 200 données de mesures de résistance... Un estimateur de maximum de vraisemblance est ... (source : stat.ucl.ac)
  • maximum de vraisemblance est judicieux. Est-il biaisé?... sont distribués selon une loi de Pareto de param`etres α > 1 et θ > 0, dont la densité est ... (source : www-math.unice)

L'estimation du maximum de vraisemblance est une méthode statistique courante utilisée pour inférer les paramètres de la distribution de probabilité d'un échantillon donné.

Cette méthode a été développée par le statisticien et généticien Ronald Fisher entre 1912 et 1922.

L'estimateur du maximum de vraisemblance peut exister et être unique, ne pas être unique, ou ne pas exister.

Définitions

Soit X une variable aléatoire réelle, de loi ou bien discrète ou bien continue, dont on veut estimer un paramètre θ. On note \mathcal{D}_\theta cette famille de lois paramétriques. Alors on définit une fonction f telle que : 
f(x;\theta) = \begin{cases} f_\theta(x) & \text{si X est une v  continue} \\ P_\theta(X=x) & \text{si X est une v  discrete} \end{cases}

fθ (x) représente la densité de X (où θ apparaît) et Pθ (X = x) représente une probabilité discrète (où θ apparaît).

On nomme vraisemblance de θ au vu des observations (x1, ..., xi, ..., xn) d'un n-échantillon indépendamment et semblablement distribué selon la loi \mathcal{D}_\theta, le nombre :

L(x_1,...,x_i,...,x_n;\theta) = f(x_1;\theta) \times f(x_2;\theta) \times ...\times f(x_n;\theta) = \prod_{i=1}ˆn f(x_i;\theta)

On cherche à trouver le maximum de cette vraisemblance pour que les probabilités des réalisations observées soient aussi maximum. Ceci est un problème d'optimisation. On utilise le plus souvent le fait que si L est dérivable (ce qui n'est pas forcément le cas) et si L admet un maximum global en une valeur \theta = \hat \theta, alors la dérivée première s'annule en \theta = \hat \theta et que la dérivée seconde est négative. Réciproquement, si la dérivée première s'annule en \theta = \hat \theta et que la dérivée seconde est négative en \theta = \hat \theta, alors \theta = \hat \theta est un maximum local (et non global) de L (x1, ..., xi, ..., xn;θ) . Il est alors indispensable de vérifier qu'il s'agit bien d'un maximum global. La vraisemblance étant positive et le logarithme népérien une fonction croissante, il est équivalent et fréquemment plus simple de maximiser le logarithme népérien de la vraisemblance (le produit se transforme en somme, ce qui est plus simple à dériver). On peut aisément construire la statistique Yn = Θ qui est l'estimateur voulu.

Ainsi en pratique :

\frac{\partial L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta} = 0

ou

  \frac{\partial \ln L(x_1,...,x_i,...,x_n;\theta)}{\partial \theta} = 0

permet de trouver la valeur \theta = \hat \theta.

\frac{\partialˆ2 L(x_1,...,x_i,...,x_n;\theta)}{\partial \thetaˆ2} \le 0

ou

  \frac{\partialˆ2 \ln L(x_1,...,x_i,...,x_n;\theta)}{\partial \thetaˆ2} \le 0

Pour simplifier, dans les cas de lois continues, où quelquefois la densité de probabilité est nulle sur un certain intervalle, on peut omettre d'écrire la vraisemblance pour cet intervalle seulement.

Généralisation

Pour une variable aléatoire réelle X de loi quelconque définie par une fonction de répartition F (x) , on considère généralement des petits voisinages V autour de (x1, ..., xn) dans \mathbb{R}ˆn, par exemple une boule de rayon ε. On obtient ainsi une fonction de vraisemblance L(\theta; V) = P[(X_{1,\theta}, ..., X_{n,\theta}) \in V] dont on cherche un maximum \theta = \hat \theta(V). On fait ensuite tendre la taille de V vers 0 dans \hat \theta(V) pour obtenir l'estimateur \hat \theta de maximum de vraisemblance.

On retombe sur les fonctions de vraisemblance précédentes lorsque X est à loi discrète ou continue.

Propriétés

L'estimateur obtenu par la méthode du maximum de vraisemblance est :

Exemples

Avec une loi discrète

On souhaite estimer le paramètre λ d'une loi de Poisson à partir d'un n-échantillon.

f(x,\lambda) = P_\lambda(X=x) = eˆ{-\lambda} \frac{\lambdaˆx}{x!}

L'estimateur du maximum de vraisemblance est : \hat {\lambda}_{ML}= \bar x

Avec une loi continue

Loi exponentielle

On souhaite estimer le paramètre α d'une loi exponentielle à partir d'un n-échantillon.

f(x,\alpha) = f_\alpha(x) = \begin{cases} \alpha eˆ{-\alpha x} & \text{si} \quad x \ge 0 \\ 0 & \text{sinon} \end{cases}

L'estimateur du maximum de vraisemblance est : \hat {\alpha}_{ML}= \frac{1}{\bar x}

Loi normale

L'estimateur du maximum de vraisemblance de l'espérance μ et la variance σ2 d'une loi normale est :

   \hat{\mu}_{ML} = \bar{x} = \frac{1}{n}\sumˆ{n}_{i=1}x_i

   \widehat{\sigma}ˆ2_{ML} = \frac{1}{n}\sum_{i=1}ˆn(x_i-\bar{x})ˆ2

L'estimateur de la variance est un bon exemple pour montrer que le maximum de vraisemblance peut apporter des estimateurs biaisés : un estimateur sans biais est donné en effet par :    \widehat\sigmaˆ2 = \frac{1}{n-1}\sum_{i=1}ˆn(x_i-\widehat{x})ˆ2. Néanmoins, asymptotiquement, lorsque n tend vers l'infini, ce biais, qui est de  \frac{n}{n-1}, tend vers 1 et l'estimateur est alors asymptotiquement sans biais.

Si la dérivée ne s'annule jamais

On souhaite estimer le paramètre a d'une loi uniforme à partir d'un n-échantillon.

f(x,a) = f_a(x) = \begin{cases} \frac {1}{a} & \text{si} \quad x \in [0;a] \\ 0 & \text{sinon} \end{cases}

La vraisemblance s'écrit :

L(x_1,...,x_i,...,x_n;a) = \prod_{i=1}ˆn \frac {1}{a} =  \frac {1}{aˆn}

Intuitivement, il est clair que cette expression de la vraisemblance ne s'annule jamais (on peut la dériver pour s'en convaincre). Graphiquement dans le repère (a, L), sa représentation est une courbe décroissante de type «inverse» (convexe tournée vers l'origine).

La valeur de L sera maximale lorsque a sera particulièrement près de 0, par conséquent lorsque a sera le plus petit envisageable (l'intervalle de la densité est alors réduit). Mais, pour que la densité soit vraie, le paramètre a doit être obligatoirement plus grand que l'ensemble des xi de l'échantillon.

On prend par conséquent comme valeur qui maximise L, tout en vérifiant la définition de la loi de probabilité :

\hat a = max(x_1,...,x_n)

Wn = A = max (X1, ..., Xn)

Cet exemple sert à montrer, qu'un estimateur n'est pas forcément défini par une expression numérique explicite. Ainsi on sera amené quelquefois à considérer le maximum ou le minimum des échantillons.

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Maximum_de_vraisemblance.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu