Régression linéaire multiple

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.



Catégories :

Estimation (statistique) - Statistiques

Page(s) en rapport avec ce sujet :

  • ... Le principe de la régression linéaire multiple est simple :... Il ne reste plus qu'à appliquer un modèle linéaire :.... Tests d'hypothèses. Un estimateur sans biais de la variance σ2 est défini par : s2 = ∑ (yi − yi) 2... (source : www-irma.u-strasbg)
  • ASPECTS MATHÉMATIQUES Un modèle général de régression linéaire multiple... analyse de variance et de tester les hypothèses sur le vecteur /3 du modèle de ... (source : books.google)
  • ... de la régression linéaire multiple est significatif ou non ?... On veut tester la significativité du cœfficient dans le modèle linéaire... Hypothèses : les sont indépendants et suivent une loi gaussienne centrée de variance.... Il faut ensuite en déduire un test d'hypothèse sur la valeur du ... (source : forums.futura-sciences)

Modèle théorique

La régression linéaire multiple est une généralisation, à p variables explicatives, de la régression linéaire simple.

Nous sommes toujours dans le cadre de la régression mathématique : étant donné un échantillon  (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n nous cherchons à expliquer, avec le plus de précision envisageable, les valeurs prises par Yi, dite variable endogène, à partir d'une série de variables explicatives  X_{i1}, \ldots, X_{ip} . Le modèle théorique, formulé en termes de variables aléatoires, prend la forme

 Y_i = a_o + a_1 X_{i1} + a_2 X_{i2} + \ldots +  a_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n

 \varepsilon_i est l'erreur du modèle qui exprime, ou résume, l'information manquante dans l'explication linéaire des valeurs de Yi à partir des  X_{i1}, \ldots, X_{ip} (problème de spécifications, variables non prises en compte, etc. ).  a_0, a_1, \ldots, a_p sont les paramètres à estimer.

Exemple

Nous relevons 20 fois les paramètres suivants : la demande totale en électricité (ce sera notre yi, i étant compris entre 1 et 20) la température extérieure (ce sera notre xi1) l'heure à laquelle les données sont prises (ce sera notre xi2)

Faire une régression linéaire revient à déterminer les ao, a1 et a2 et \varepsilon_i tels que, quelle que soit la mesure prise, on ait :  y_i = a_o + a_{1} x_{i1} + a_{2} x_{i2} + \varepsilon_i

Estimation

Quand nous disposons de n observations  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n , qui sont des réalisations des variables aléatoires  (Y_i, X_{i1}, \ldots, X_{ip}) , l'équation de régression s'écrit

 y_i = a_o + a_{1} x_{i1} + \ldots +  a_p x_{ip} + \varepsilon_i \qquad i = 1, \ldots, n \,


La problématique reste la même que pour la régression simple :

Notation matricielle

Nous pouvons adopter une écriture condensée qui rend la lecture et la manipulation de la totalité plus facile. Les équations suivantes


\begin{cases}
y_1 = a_0 + a_1 x_{1,1} + \ldots + a_p x_{1,p} + \varepsilon_1\\
y_2 = a_0 + a_1 x_{2,1} + \ldots + a_p x_{2,p} + \varepsilon_2\\
\cdots\\
y_n = a_0 + a_1 x_{n,1} + \ldots + a_p x_{n,p} + \varepsilon_n
\end{cases}

peuvent être résumées avec la notation matricielle


\begin{pmatrix}
y_1   \\
\vdots\\
y_n
\end{pmatrix}

=
\begin{pmatrix}
1 & x_{1,1} & \cdots & x_{1,p} \\
	\vdots & \vdots & \ddots & \vdots\\
	1 & x_{n,1} & \cdots & x_{n,p}

\end{pmatrix}

\begin{pmatrix}
a_0\\
a_1\\
\vdots\\
a_p\\
\end{pmatrix}
+
\begin{pmatrix}
\epsilon_1\\
\vdots\\
\epsilon_n\\
\end{pmatrix}

Soit de manière compacte :  y = Xa + \epsilon \,

avec

Hypothèses

Comme en régression simple, les hypothèses permettent de déterminer : les propriétés des estimateurs (biais, convergence)  ; et leurs lois de distributions (pour les estimations par intervalle et les tests d'hypothèses).

Il existe essentiellement deux catégories d'hypothèses :

Hypothèses stochastiques
Hypothèses structurelles

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire_multiple.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu