Modele de regression

Les modèles de régression prédisent une valeur de la variable Y donnée des valeurs connues des variables X. La prédiction dans la plage de valeurs dans le jeu de données utilisé pour le raccord de modèle est connue officieusement comme interpolation. La prédiction en dehors de cette plage de données est connue sous le nom d`extrapolation. La réalisation de l`extrapolation repose fortement sur les hypothèses de régression. Plus l`extrapolation va à l`extérieur des données, plus il y a de place pour que le modèle échoue en raison de différences entre les hypothèses et les données d`échantillon ou les vraies valeurs. Salut, pouvez-vous s`il vous plaît expliquer ce point mentionné dans la régression logistique-multi colinéarité partie “Cependant, nous avons les options pour inclure les effets d`interaction des variables catégorielles dans l`analyse et dans le modèle.” La régression consiste à ajuster les données à une ligne (Minitab peut également effectuer d`autres types de régression, comme la régression quadratique). Lorsque vous trouvez une régression dans Minitab, vous obtiendrez un diagramme de dispersion de vos données ainsi que la ligne de meilleur ajustement, plus Minitab vous fournira: lors de la sélection du modèle pour l`analyse, une considération importante est le montage du modèle. L`ajout de variables indépendantes à un modèle de régression linéaire augmentera toujours la variance expliquée du modèle (généralement exprimée en R ²). Toutefois, le surajustement peut se produire en ajoutant trop de variables au modèle, ce qui réduit la généralisabilité du modèle. Le rasoir d`Occam décrit le problème extrêmement bien – un modèle simple est généralement préférable à un modèle plus complexe. Statistiquement, si un modèle inclut un grand nombre de variables, certaines des variables seront statistiquement significatives en raison du hasard seul. L`analyse de régression est un moyen de trier mathématiquement lequel de ces variables a effectivement un impact.

Il répond aux questions: Quels sont les facteurs les plus important? Que pouvons-nous ignorer? Comment ces facteurs interagissent-ils entre eux? Et, peut-être le plus important, comment sommes-nous certains de tous ces facteurs? Bien que les paramètres d`un modèle de régression sont généralement estimés à l`aide de la méthode des moindres carrés, d`autres méthodes qui ont été utilisées comprennent: la régression de crête est une technique utilisée lorsque les données souffrent de multicolinéarité (les variables indépendantes sont fortement corrélées). En multicolinéarité, même si les estimations des moindres carrés (OLS) sont impartiales, leurs écarts sont importants, ce qui écarte la valeur observée loin de la valeur réelle. En ajoutant un degré de partialité aux estimations de régression, la régression de crête réduit les erreurs standard. La variable de réponse peut être non continue («limitée» pour se situer sur un sous-ensemble de la ligne réelle). Pour les variables binaires (zéro ou un), si l`analyse procède à une régression linéaire des moindres carrés, le modèle est appelé modèle de probabilité linéaire. Les modèles non linéaires pour les variables dépendantes binaires incluent le modèle probit et logit. Le modèle probit multivarié est une méthode standard d`estimation d`une relation conjointe entre plusieurs variables dépendantes binaires et certaines variables indépendantes. Pour les variables catégorielles avec plus de deux valeurs, il y a la logit multinomiale. Pour les variables ordinales avec plus de deux valeurs, il y a le logit ordonné et les modèles probit ordonnés. Les modèles de régression censuré peuvent être utilisés lorsque la variable dépendante n`est parfois observée, et les modèles de type de correction Heckman peuvent être utilisés lorsque l`échantillon n`est pas sélectionné au hasard dans la population d`intérêt. Une alternative à de telles procédures est la régression linéaire basée sur la corrélation polychorique (ou les corrélations polysérielles) entre les variables catégorielles.