Modele de regression multiple


Le montage de polyiales d`ordre sup?rieur d`une variable ind?pendante avec une moyenne non ?gale ? z?ro peut cr?er des probl?mes de multicolin?arit? difficiles. Plus pr?cis?ment, les polyiales seront fortement corr?l?es en raison de la moyenne de la variable ind?pendante primaire. Avec un grand nombre (par exemple, les dates juliennes), ce probl?me est tr?s grave, et si les protections ad?quates ne sont pas mises en place, peut causer des r?sultats erron?s. La solution consiste ? «centrer» la variable ind?pendante (parfois, cette proc?dure est appel?e «polyiales centr?es»), c`est-?-dire ? soustraire la moyenne, puis ? calculer les polyiales. Voir, par exemple, le texte classique de Neter, Wasserman, & Kutner (1985, chapitre 9), pour une discussion d?taill?e de cette question (et des analyses avec des mod?les polynomiaux en g?n?ral). R-Square, ?galement connu comme le coefficient de d?termination est une statistique couramment utilis?e pour ?valuer l`ajustement du mod?le. Le carr? R est 1 moins le rapport de la variabilit? r?siduelle. Lorsque la variabilit? des valeurs r?siduelles autour de la ligne de r?gression par rapport ? la variabilit? globale est faible, les pr?dictions de l`?quation de r?gression sont bonnes. Par exemple, s`il n`y a pas de relation entre les variables X et Y, le rapport entre la variabilit? r?siduelle de la variable Y et la variance d`origine est ?gal ? 1,0. Alors R-Square serait 0.

Si X et Y sont parfaitement li?s alors il n`y a pas de variance r?siduelle et le ratio de variance serait 0,0, ce qui rend R-carr? = 1. Dans la plupart des cas, le ratio et le carr? R tomberont quelque part entre ces extr?mes, c`est-?-dire entre 0,0 et 1,0. Cette valeur de ratio est imm?diatement interpr?table de la mani?re suivante. Si nous avons un carr? R de 0,4, nous savons que la variabilit? des valeurs Y autour de la ligne de r?gression est de 1 ? 0,4 fois la variance d`origine; en d`autres termes, nous avons expliqu? 40% de la variabilit? initiale, et nous sommes laiss?s avec 60% de variabilit? r?siduelle. Id?alement, nous aimerions expliquer la plupart sinon la totalit? de la variabilit? originale. La valeur du carr? R est un indicateur de la fa?on dont le mod?le correspond aux donn?es (par exemple, un carr? R proche de 1,0 indique que nous avons comptabilis? presque toute la variabilit? avec les variables sp?cifi?es dans le mod?le). Supposons que nous sommes d`abord int?ress?s ? ajouter la variable «Fat». La corr?lation entre «Fat» et «rating» est ?gale ?-0,409, tandis que la corr?lation entre «sucres» et «Fat» est ?gale ? 0,271. Puisque «Fat» et «Sugar» ne sont pas fortement corr?l?s, l`addition de la variable «Fat» peut am?liorer significativement le mod?le. La r?gression multiple vous permet ?galement de d?terminer l`ajustement global (variance expliqu?e) du mod?le et la contribution relative de chacun des pr?dicteurs ? la variance totale expliqu?e.

Par exemple, vous voudrez peut-?tre savoir quelle proportion de la variation de la performance de l`examen peut ?tre expliqu?e par le temps de r?vision, l`anxi?t? de test, la fr?quentation des conf?rences et le genre «dans son ensemble», mais aussi la «contribution relative» de chaque variable ind?pendante dans l`explication de la variance .