Lineare Regression, bedingte Erwartungen und erwartete Werte

11

Okay, nur ein bisschen verschwommen in ein paar Dingen, jede Hilfe wäre sehr dankbar. Nach meinem Verständnis wird das lineare Regressionsmodell über eine bedingte Erwartung vorhergesagt

E(Y|X)=b+Xb+e
  1. Nehmen wir an, dass sowohl als auch Zufallsvariablen mit einer unbekannten Wahrscheinlichkeitsverteilung sind? Nach meinem Verständnis waren nur die Residuen und die geschätzten Beta-Koeffizienten Zufallsvariablen. Wenn ja, zum Beispiel, wenn Fettleibigkeit und Alter, wenn wir die bedingte Erwartung was ist der erwartete Wert von Fettleibigkeit, wenn das Individuum in der Stichprobe alt ist? Nehmen Sie einfach den Durchschnitt (arithmetisches Mittel) von y für die Beobachtungen, bei denen ? Bedeutet der erwartete Wert jedoch nicht, dass wir dies mit der Eintrittswahrscheinlichkeit multiplizieren müssen? aber wie in diesem Sinne finden wir die Wahrscheinlichkeit desXYY=X=E(Y|X=35)35X=35X-Wertvariable, die auftritt, wenn sie so etwas wie Alter darstellt?
  2. Wenn etwas wie den Wechselkurs darstellen würde, würde dies als zufällig eingestuft werden? Wie um alles in der Welt würden Sie den erwarteten Wert finden, ohne die Wahrscheinlichkeit zu kennen? oder würde der erwartete Wert nur dem Mittelwert im Grenzwert entsprechen.X
  3. Wenn wir nicht annehmen, dass die abhängigen Variablen selbst Zufallsvariablen sind, da wir die Wahrscheinlichkeit nicht überschreiten, was nehmen wir dann an? nur feste Werte oder so? Aber wenn dies der Fall ist, wie können wir zunächst eine nicht zufällige Variable bedingen? Was nehmen wir über die Verteilung unabhängiger Variablen an?

Tut mir leid, wenn irgendetwas keinen Sinn ergibt oder für irgendjemanden offensichtlich ist.

William Carulli
quelle
1
Der Regressionskoeffizient ist eine unbekannte Konstante, keine Zufallsvariable (zumindest in einer frequentistischen Welt). β
Richard Hardy
Was meinst du mit bedingten Erwartungen? E (Y | X) bedeutet einfach Y bei gegebenem X, dh dem erwarteten Wert von Y bei X. Sagen wir, y = 5 + x, dann ist E (Y | X = 5) 10. Ich habe Ihren Punkt nicht verstanden bedingte Erwartung
Zamir Akimbekov
@RichardHardy, ich habe verstanden, dass B, da es der Mittelwert der Stichprobenverteilung der Beta ist, eine Zufallsvariable ist, die durch eine Normalverteilung gekennzeichnet ist. beziehen Sie sich auf das Bevölkerungsmodell?
William Carulli
Ja, Bevölkerungsmodell.
Richard Hardy
1
@WilliamCarulli Richard bezieht sich auf den Unterschied zwischen einem Populationsparameter und einem geschätzten Parameter. Der geschätzte Parameter ist zwar eine Zufallsvariable, aber der (unbekannte) wahre Populationsparameter ist ein fester Wert.
Matthew Drury

Antworten:

7

In dem Wahrscheinlichkeitsmodell zugrundeliegende lineare Regression, X und Y sind Zufallsvariablen.

Wenn dies beispielsweise der Fall ist, wenn Y = Fettleibigkeit und X = Alter, wenn wir die bedingte Erwartung E (Y | X = 35) annehmen, was ist der erwartete Wert für Fettleibigkeit, wenn das Individuum in der Stichprobe 35 Jahre alt ist? Nehmen Sie einfach den Durchschnitt (arithmetisches Mittel) von y für die Beobachtungen, bei denen X = 35?

Das stimmt. Im Allgemeinen können Sie nicht erwarten, dass Sie bei jedem bestimmten Wert von X über genügend Daten verfügen, oder es ist möglicherweise unmöglich, dies zu tun, wenn X einen kontinuierlichen Wertebereich annehmen kann. Aber konzeptionell ist das richtig.

Bedeutet der erwartete Wert jedoch nicht, dass wir dies mit der Eintrittswahrscheinlichkeit multiplizieren müssen?

Dies ist der Unterschied zwischen der bedingungslosen Erwartung und der bedingten Erwartung . Die Beziehung zwischen ihnen istE [ Y X = x ]E[Y]E[YX=x]

E[Y]=xE[YX=x]Pr[X=x]

Das ist das Gesetz der totalen Erwartung.

aber wie finden wir in diesem Sinne die Wahrscheinlichkeit, dass die X-Wert-Variable auftritt, wenn sie so etwas wie das Alter darstellt?

Im Allgemeinen befinden Sie sich nicht in einer linearen Regression. Da wir versuchen, zu bestimmen , müssen wir .P r [ X = x ]E[YX]Pr[X=x]

Wenn wir nicht davon ausgehen, dass die unabhängigen Variablen selbst Zufallsvariablen sind, da wir die Wahrscheinlichkeit nicht überschreiten, was nehmen wir dann an? nur feste Werte oder so?

Wir nehmen an, dass Y eine Zufallsvariable ist. Eine Möglichkeit, über lineare Regression nachzudenken, ist das Wahrscheinlichkeitsmodell fürY

YXβ+N(0,σ)

Das heißt, sobald Sie den Wert von X kennen, ist die zufällige Variation in Y auf den Summanden .N(0,σ)

Matthew Drury
quelle
Vielen Dank für Ihren Kommentar, der mir sehr geholfen hat. Prost.
William Carulli
@ WilliamCarulli Gern geschehen! Fühlen Sie sich frei, weitere Fragen zu stellen, und ich werde mein Bestes geben, um diese zu beantworten. Wenn ich wirklich alle Ihre Probleme geklärt habe, können Sie es auch akzeptieren.
Matthew Drury
3
Dies ist ein guter Beitrag. Ich denke jedoch, dass jede Antwort, die nicht anerkennt, dass (a) festgelegt werden kann oder (b) eine Zufallsvariable sein kann (mit bestimmten Unabhängigkeitsannahmen), die in der Frage geäußerten Bedenken nicht wirklich anspricht. X
whuber
@ MatthewDrury, Nur um zu verdeutlichen, wenn meine abhängige Variable der Wechselkurs ist und meine abhängige der inländische Zinssatz, dann
William Carulli
@ MatthewDrury @ MatthewDrury, Nur um zu verdeutlichen, wenn meine abhängige Variable der Wechselkurs und meine abhängige der inländische Zinssatz ist, dann ist E (E (Wechselkurs | Zinssatz)) = E (Wechselkurs) = der Stichprobenmittelwert des Wechselkurses? Ich denke, was mich verwirrt, ist, dass ich immer davon ausgehe, dass Erwartungen basierend auf Wahrscheinlichkeiten berechnet werden. Ich sehe den Grund für die Bezeichnung der linearen Regression nicht als bedingte Erwartung, wenn die Lösung über die Matrixalgebra viel anders erscheint als die Annahme der Gesamterwartung.
William Carulli
3

Es wird viele Antworten auf diese Frage geben, aber ich möchte noch eine hinzufügen, da Sie einige interessante Punkte angesprochen haben. Der Einfachheit halber betrachte ich nur das einfache lineare Modell.

   It is my understanding that the linear regression model
   is predicted via a conditional expectation E(Y|X)=b+Xb+e

Die Grundgleichung einer einfachen linearen Regressionsanalyse lautet: Diese Gleichungsbedeutung bedeutet, dass der Durchschnittswert von linear zu den Werten von . Man kann auch feststellen, dass der erwartete Wert auch bei den Parametern und linear ist, weshalb das Modell als linear bezeichnet wird. Diese Grundgleichung kann wie folgt umgeschrieben werden: wobei eine Zufallsvariable mit dem Mittelwert Null ist:

E(Y|X)=β0+β1X,
YXβ0β1
Y=β0+β1X+ϵ,
ϵE(ϵ)=0
Do we assume that both X and Y are Random variables with some unknown 
probability distribution? ... If we don't assume the independent variables 
are themselves random 

Die unabhängige Variable kann zufällig oder fest sein. Die abhängige Variable ist IMMER zufällig.XY

Normalerweise nimmt man an, dass feste Zahlen sind. Dies liegt daran, dass die Regressionsanalyse entwickelt wurde und im Rahmen von entworfenen Experimenten, bei denen die -Werte zuvor festgelegt wurden , in großem Umfang angewendet wird .{X1,...,Xn}X

Die Formeln für die Schätzungen der kleinsten Quadrate von und sind dieselben, auch wenn die zufällig angenommen werden, aber die Verteilung dieser Schätzungen ist im Vergleich zur Situation mit festen im Allgemeinen nicht dieselbe .β0β1XX

if we take the conditional expectation E(Y|X=35) ... would we just take 
the average(arithmetic mean) of y for those observations where X=35?

Im einfachen linearen Modell können Sie eine Schätzung von basierend auf den Schätzungen von und , nämlich: Der Schätzer das bedingte mittlere kleinste Quadrat hat einen Ausdruck, der dem von Ihnen beschriebenen entspricht, wenn Ihr Modell die verschiedenen Gewichte als Ebenen eines einzelnen Faktors behandelt. Diese Modelle werden auch als Einweg-ANOVA bezeichnet, was ein besonderer Fall eines (nicht einfachen) linearen Modells ist.E(Y|X=x) β 0 β 1 φ (x)= β 0+ β 1xφ^(x)E(Y|X=x)β^0β^1

φ^(x)=β^0+β^1x

Mur1lo
quelle
1
Einige der Bemerkungen in diesem Beitrag sind ungewöhnlich und werden möglicherweise missverstanden. Zunächst wird das Modell „linear“ genannt , weil es linear in dem ist Parameter , nicht in . Zweitens sind die Schätzungen und Zufallsvariablen, unabhängig davon, was über angenommen wird . Drittens scheint Ihre Behandlung der bedingten Erwartung die Beobachtungen mit der wahren bedingten Verteilung zu verwechseln . Schließlich ist der Verweis auf "keine wiederholten Werte" verwirrend, weil er irrelevant ist. β 0 β 1 XXβ^0β^1X
whuber
1
@whuber "Erstens heißt das Modell" linear ", weil es in den Parametern linear ist." Ich habe die Gleichungsbedeutung erklärt, nicht die Bedeutung von "linear" in "lineares Modell". "Die Schätzungen β̂ 0 und β̂ 1 sind Zufallsvariablen, unabhängig davon, was über X angenommen wird", aber die Verteilung dieser Zufallsvariablen ändert sich abhängig von der Art und Weise, wie Sie X behandeln.
Mur1lo
1
@whuber Ich stimme deinen letzten Punkten voll und ganz zu. Ich werde meine Antwort so bearbeiten, dass sie in allen von Ihnen angesprochenen Fragen klarer ist. Danke für die Rückmeldung.
Mur1lo