Was bedeutet es (intuitiv), andere Variablen in der Regression konstant zu halten?

9

Ich suche sowohl eine 1) mechanische als auch eine 2) intuitive Erklärung dafür, wie die Auswirkungen einzelner Variablen bestimmt werden, indem andere Variablen konstant gehalten werden.

Was genau bedeutet es in einem Beispiel mit Umfragedaten zu sagen:

"Bei konstantem Alter, Geschlecht und Einkommen ist der Effekt der Bildung ___"

Mein Verständnis ist, dass wir mit Regression versuchen, die experimentelle Umgebung wiederherzustellen, und im obigen Beispiel versuchen, Subpopulationen mit gleichem Alter, Geschlecht, Einkommen usw. zu vergleichen, aber mit unterschiedlichem Bildungsniveau, und den Unterschied in zu schätzen Mittelwert dieser Subpopulationen. Fragen:

  1. Ist diese Intuition richtig?
  2. Gibt es diese Subpopulationen unbedingt? Was ist, wenn die Umfrage keine Befragten mit genau den gleichen Werten auf den Kontrollen enthält?
  3. Wie wird die Unsicherheit über die Schätzungen dieser Subpopulationen ermittelt?
FlacoT
quelle
Sind partielle Ableitungen für Sie "intuitiv"?
Aksakal

Antworten:

5

Intuition ist ein heikles Thema, es hängt vom Hintergrund der Person ab. Zum Beispiel habe ich nach dem Studium der mathematischen Physik Statistik studiert. Für mich ist die Intuition in partiellen Ableitungen. Betrachten Sie ein Regressionsmodell Es kann wie folgt angepasst werden: y i = f ( x i , z i ) + ε i , wobei f ( x , z ) = b

yich=ein+bxxich+bzzich+εich
yich=f(xich,zich)+εich,
f(x,z)=bxx+bzz

Nehmen Sie eine Gesamtableitung der Funktion : d f = ff()

df=fxdx+fzdz

So wird die partielle Ableitung wrt definiert: fx

fx=limΔx0f(x+Δx,z)- -f(x,z)Δx
zxfx
fx=bx

Mit anderen Worten, im einfachen linearen Modell sind Ihre Koeffizienten partielle Ableitungen (Steigungen) in Bezug auf die Variablen. Das bedeutet für mich intuitiv "konstant halten".

Aksakal
quelle
1
Ich schätze diese Intuition, aber Teile Ihrer Beschreibung könnten für manche Menschen unerwartet problematisch sein. Ich möchte Ihre Aufmerksamkeit darauf lenken, (1) wie eine partielle Ableitung für kategoriale Regressoren definiert wird und (2) wie partielle Ableitungen definiert werden, wenn Regressoren Funktionen anderer Regressoren sind, wie bei der Polynomregression oder wenn Interaktionen enthalten sind.
whuber
2
  1. Die Intuition ist an ihrer Basis korrekt. Ich werde versuchen, auch kurz und intuitiv zu antworten.
  2. Diese Teilpopulationen existieren notwendigerweise, weil Sie sie konstant halten, indem Sie: (a) Ihre Probanden in Bezug auf Ihre spekulierten Kovariaten untersuchen oder (b) ihre Variabilität einschränken (dh Varianz = 0). Dies geschieht, indem 1 Gruppe (z. B. nur Männer, nur Blondinen usw.) als kategoriale Variable oder ein Durchschnitt einer bestimmten Kovariate (Alter, Bildung, Einkommen usw.) genommen wird.
user122677
quelle
6
Diese Antwort scheint alle möglichen Anwendungen der Regression auf nicht experimentelle oder beobachtende Datensätze auszuschließen (außer vielleicht diejenigen, die mit mehr Beobachtungen erweitert werden können, die selten sind). Als solches scheint es unnötig restriktiv zu sein und wird daher den zugrunde liegenden Konzepten wahrscheinlich nicht gerecht.
whuber
2

Wie user122677 antwortete, ist die Intuition richtig: Bei der linearen Regression ist jeder Koeffizient das Ausmaß der Änderung des Ergebnisses, wenn ein Variablenwert um eine Einheit erhöht wird, während alle anderen Variablen konstant bleiben. Mit anderen Worten, Koeffizienten sind partielle Ableitungen der Modellvorhersage in Bezug auf jede Variable.

Beachten Sie jedoch, dass Variablen in unserem Modell nicht geändert werden können, ohne die Interaktion zu ändern. Daher kann diese Interpretation eines Koeffizienten als echte Änderung keinen Sinn ergeben. Das gleiche passiert mit der Polynomregression, bei der sich kein Begriff ändern kann, ohne andere Begriffe zu ändern.

Über die Existenz dieser Subpopulationen müssen sie nicht existieren. In einigen experimentellen Designs können sie existieren, aber in Beobachtungsstudien mit kontinuierlichen Variablen ist es sehr unwahrscheinlich, dass sie existieren. Zum Beispiel:

  • In vollständigen Versuchsplänen mit binären (oder diskreten endlichen) Variablen befindet sich jede Kombination von Variablenwerten in der Stichprobe.
  • In Beobachtungsstudien mit kontinuierlichen Variablen wird jede Beobachtung sehr wahrscheinlich eindeutige Werte für alle Variablen erhalten, und daher ist es unwahrscheinlich, dass zwei Elemente mit allen Variablen bis auf eines gleich sind.
Pere
quelle