Ich suche sowohl eine 1) mechanische als auch eine 2) intuitive Erklärung dafür, wie die Auswirkungen einzelner Variablen bestimmt werden, indem andere Variablen konstant gehalten werden.
Was genau bedeutet es in einem Beispiel mit Umfragedaten zu sagen:
"Bei konstantem Alter, Geschlecht und Einkommen ist der Effekt der Bildung ___"
Mein Verständnis ist, dass wir mit Regression versuchen, die experimentelle Umgebung wiederherzustellen, und im obigen Beispiel versuchen, Subpopulationen mit gleichem Alter, Geschlecht, Einkommen usw. zu vergleichen, aber mit unterschiedlichem Bildungsniveau, und den Unterschied in zu schätzen Mittelwert dieser Subpopulationen. Fragen:
- Ist diese Intuition richtig?
- Gibt es diese Subpopulationen unbedingt? Was ist, wenn die Umfrage keine Befragten mit genau den gleichen Werten auf den Kontrollen enthält?
- Wie wird die Unsicherheit über die Schätzungen dieser Subpopulationen ermittelt?
regression
interpretation
FlacoT
quelle
quelle
Antworten:
Intuition ist ein heikles Thema, es hängt vom Hintergrund der Person ab. Zum Beispiel habe ich nach dem Studium der mathematischen Physik Statistik studiert. Für mich ist die Intuition in partiellen Ableitungen. Betrachten Sie ein Regressionsmodell Es kann wie folgt angepasst werden: y i = f ( x i , z i ) + ε i , wobei f ( x , z ) = b
Nehmen Sie eine Gesamtableitung der Funktion : d f = ∂ ff( )
So wird die partielle Ableitung wrt definiert: ∂ fx
Mit anderen Worten, im einfachen linearen Modell sind Ihre Koeffizienten partielle Ableitungen (Steigungen) in Bezug auf die Variablen. Das bedeutet für mich intuitiv "konstant halten".
quelle
quelle
Wie user122677 antwortete, ist die Intuition richtig: Bei der linearen Regression ist jeder Koeffizient das Ausmaß der Änderung des Ergebnisses, wenn ein Variablenwert um eine Einheit erhöht wird, während alle anderen Variablen konstant bleiben. Mit anderen Worten, Koeffizienten sind partielle Ableitungen der Modellvorhersage in Bezug auf jede Variable.
Beachten Sie jedoch, dass Variablen in unserem Modell nicht geändert werden können, ohne die Interaktion zu ändern. Daher kann diese Interpretation eines Koeffizienten als echte Änderung keinen Sinn ergeben. Das gleiche passiert mit der Polynomregression, bei der sich kein Begriff ändern kann, ohne andere Begriffe zu ändern.
Über die Existenz dieser Subpopulationen müssen sie nicht existieren. In einigen experimentellen Designs können sie existieren, aber in Beobachtungsstudien mit kontinuierlichen Variablen ist es sehr unwahrscheinlich, dass sie existieren. Zum Beispiel:
quelle