Conséquences de la sélection de variables sur l’interprétation des résultats en régression linéaire multiple
Reçu le 30 mars 2004, accepté le 14 juillet 2004
Résumé
La sélection de variables, a priori ou a posteriori, est une pratique très courante en régression multiple. L’utilisateur n’est cependant pas toujours conscient des conséquences sur les résultats qu’induit cette sélection. Dans cette note, les notions de biais d’omission et de biais de sélection des variables sont illustrées à partir d’un exemple simulé. Les conséquences de la sélection des variables sur l’estimation des paramètres et sur les prédictions sont ensuite examinées. L’attention de l’utilisateur est attirée sur les risques d’interprétation abusive des coefficients de régression, particulièrement après sélection de variables. Par contre, les conséquences de la sélection des variables sur la qualité des valeurs prédites de la variable à expliquer sont assez limitées, du moins pour l’exemple examiné.
Abstract
Consequences of variable selection on the interpretation of the results in multiple linear regression
A priori or a posteriori variable selection is a common practise in multiple linear regression. The user is however not always aware of the consequences on the results due to this variable selection. In this note, the presence of omission bias and selection bias is explained by means of a Monte Carlo experiment. The consequences of variable selection on the regression coefficients and on the predicted values are then analysed. The user’s attention is drawn to the risk of misinterpretation of the regression coefficients, specially after variable selection. On the other hand, the consequences of variable selection on the predicted values of the response variable are rather limited, at least for the given example.