Wahrscheinlichkeit bei linearer Regression

7

Ich versuche zu verstehen, wie Menschen die Wahrscheinlichkeit für eine einfache lineare Regression ableiten. Nehmen wir an, wir haben nur ein Merkmal x und das Ergebnis y. Ich bezweifle nicht den Ausdruck mit der normalen Dichte selbst und ich bezweifle auch nicht, dass man das Produkt aufgrund der Unabhängigkeit in einfachere Faktoren zerlegen kann. Ich bezweifle, wie Menschen diesen Ausdruck ableiten. Es scheint einen ganzen Zoo von (teilweise falschen) Annahmen über die Eingabe zu geben, und fast überall wird der kritische Schritt (Name, wie man das Produkt normaler Dichten ableitet), bei dem man tatsächlich die richtigen Annahmen verwenden muss, weggelassen :-(

Was ich für selbstverständlich halte, ist Folgendes: Wir erhalten einen festen Trainingssatz (xi,yi)i=1,2,...,n und nehme das an

  1. die Paare (xi,yi) im festen Trainingssatz der Länge n kommen aus Zufallsvariablen (Xi,Yi) das sind iid verteilt
  2. Yi=β0Xi+ϵi
  3. das ϵi sind eindimensionale iid-Zufallsvariablen, die jeweils als verteilt sind N(0,σ) mit σ bekannt (um zu vereinfachen) (vielleicht sollte man etwas über die bedingte Dichte annehmen fϵi|XiHier? Die Leute scheinen sich nicht sicher zu sein, was sie hier tatsächlich annehmen sollen ...)

Lassen Y=(Y1,...,Yn) und lass X=(X1,...,Xn). Ziel ist es nun, die bedingte Dichte zu bestimmenfY|X=f(Y,X)fX. Deutlich,

fY|X=i=1nfYi|Xi

Frage:

Wie gehe ich von hier aus vor?

Ich sehe nicht, wie die Annahmen Informationen geben f(Yi,Xi) oder ungefähr fXi deshalb kann ich diese Menge einfach nicht berechnen fYi|Xi=f(Yi,Xi)fXi. Einige Leute könnten das auch denkenYi=β0Xi+ϵi und ϵi normal verteilt (oder ϵi|Xi normalverteilt) bedeutet das auch Yi|X ist normal verteilt, aber ...

Es gibt eine Anweisung für normalverteilte Zufallsvariablen, die jedoch folgendermaßen lautet: If X ist normal verteilt und A,B sind dann feste Matrizen AX+Bwird normalerweise wieder verteilt. Im obigen FallB ist β0XiDas ist keine konstante Matrix.

Andere Quellen scheinen zu übernehmen , dassfYi|Xiwird normalerweise sofort verteilt. Dies scheint eine seltsame Annahme zu sein ... wie sollten wir das jemals an einem realen Datensatz testen können?

Grüße + danke,

FW

Fabian Werner
quelle
Es gibt Probleme in Ihrem Setup. Zum Beispiel die Aussage "Zufallsvariablen(Xi,Yi) die iid verteilt sind "ist in der Regel falsch. Zumindest Xihaben normalerweise unterschiedliche Mittel, also sind sie nicht nur aus diesen Gründen iid.
Aksakal
Obwohl Sie behaupten, Sie hätten nichts über die gemeinsame Verteilung angenommen, haben Sie in (2) und (3) eindeutig eine extrem starke Annahme darüber gemacht.
whuber
@whuber: Die Frage ist nicht, ob eine lineare Regression ein gutes Modell ist oder nicht ... selbst wenn Sie eine SVM berechnen, machen Sie implizit sehr starke Annahmen über die Verteilungen ... da Sie nicht den bayesianischen Weg gehen, den Sie in der verstecken Formeln aber. Die Frage ist: Angesichts der Tatsache, dass die lineare Regression ein gutes Modell ist, wie kann ich die Formel tatsächlich zusammenstellen, um die Parameter zu berechnen :-)
Fabian Werner
@Aksakal: Ich verstehe nicht, wovon du sprichst, es tut mir leid ... Dies scheint eine eher philosophische Diskussion zu sein: die Xihaben den gleichen Mittelwert, die in fast allen Setups beim maschinellen Lernen identisch verteilt sind. Was meinst du mit "sie haben nicht den gleichen Mittelwert"?
Fabian Werner
@Aksakal: Zum Beispiel: Hängt das Alter eines festen Individuums bei einer Gruppe zufällig ausgewählter Personen vom Alter der anderen ab? Kaum eine Chance, Mitglieder derselben Familie auszuwählen, ist gering ...
Fabian Werner

Antworten:

3

Die Schlüsselannahme abzuleiten fYi|Xi ist, dass das Rauschen unabhängig vom Eingang ist, das heißt ϵi ist unabhängig von Xi. Sie müssen nichts über die Verteilung von wissen oder annehmenXi.

Sie beginnen mit:

fYi|Xi(x,y)=p(Yi=y|Xi=x)=p(β0x+ϵi=y|Xi=x)=p(ϵi=yβ0x|Xi=x)

Nun wird die Unabhängigkeitsannahme verwendet, da ϵi ist unabhängig von Xi, seine Dichte gegeben einen Wert von Xi ist einfach seine Dichte:

p(ϵi=yβ0x|Xi=x)=p(ϵi=yβ0x)=...e(yβ0x)2/2σ2

Man könnte alternativ sagen, dass die Verteilung des Rauschens bedingt istXi ist normal mit einer konstanten Varianz (und einem Mittelwert von 0) bei einem beliebigen Wert von Xi. Darauf kommt es wirklich an. Dies entspricht jedoch genau der üblichen Annahme:

  • ϵi ist unabhängig von Xi
  • ϵi ist normalverteilt (mit Mittelwert 0)
Benoit Sanchez
quelle
Sehr gute Antwort, danke !!! Ich habe jedoch immer noch Probleme mit Folgendem: Wie schließen Sie daraus?p(ϵ=yβ0X|X=x)=p(ϵ=yβ0x|X=x), dh warum glauben Sie, dass die Konditionierung auf eine Zufallsvariable bei der Einstellung von Dichten (nicht bedingte Erwartungswerte und dergleichen) nur durch den konkreten Wert ersetzt wird?
Fabian Werner
Mit diskreten Variablen ist es einfacher zu sehen, da Sie sich direkt mit einfachen bedingten Wahrscheinlichkeiten von Ereignissen befassen. P(Y=f(X)|X=x)=P(Y=f(X) and X=x)/P(X=x). Schließlich muss man nur noch beachten, dass als Ereignisse (Mengen),(Y=f(X) and X=x)=(Y=f(x) and X=x). Es ist nur Logik. Die gleiche Idee gilt für Dichten.
Benoit Sanchez
Schließlich funktioniert es ja wie Ersatz.
Benoit Sanchez
2

Dank der Antwort von Benoit Sanchez verstand ich es endlich (wurde aber auf den falschen Weg einer Ersatzregel für bedingte Dichten gebracht). Die Antwort lautet wie folgt:

Das muss man annehmen

  1. Die Paare (xi,yi) kommen aus Zufallsvariablen (Xi,Yi) so dass die Variablen Zi=(Xi,Yi) sind unabhängig
  2. Yi=β0Xi+ϵi
  3. Das ϵi sind iid. N(0,σ) verteilt
  4. ϵi ist unabhängig von Xi (Der Fehler geht mit der Funktion nicht hoch oder runter, hat aber nichts damit zu tun.)
  5. X=(X1,...,Xn) und Y=(Y1,...,Yn) haben eine gemeinsame Dichte fX,Y. Insbesondere alle(Xi,Yi) haben gemeinsame Dichten fXi,Yi.

Man braucht die folgende einfache Beobachtung: Gegeben n reelle Zufallsvariablen Z1,...,Zn mit einer gemeinsamen Dichte fZ1,...,Zn und Bijektion Φ:RnRn so dass Φ und Φ1 sind dann differenzierbar

fΦ(Z1,...,Zn)(z1,...,zn)=|det(Φ1)|fZ1,...,Zn(Φ1(z1,...,zn))
dh die Dichte der transformierten Zufallsvariablen ist die alte Dichte, die an einem transformierten Punkt ausgewertet wird.

Die Schlüsselbeobachtung ist, dass die zweidimensionale Zufallsvariable (Yi,Xi) ist eine einfache Transformation von (ϵi,Xi)nämlich

(Yi,Xi)=Φ(ϵi,Xi)
wo Φ(e,x)=(e+β0x,x). Wir habenΦ1(y,x)=(yβ0x,x). Seine Differentialmatrix ist
Φ1=(1β001)
das ist von bestimmender.

Nun wenden wir die Beobachtung auf diese Situation an und erhalten

fYi,Xi(y,x)=fΦ(ϵi,Xi)(y,x)=1fϵi,Xi(Φ1(y,x))=fϵi,Xi(yβ0x,x)

Jetzt ϵi ist unabhängig von Xi durch Annahme daher

fYi,Xi(y,x)=fϵi(yβ0x)fX(x)
oder eher
fYi|Xi(y|x)=fϵi(yβ0x)fX(x)fX(x)=fϵi(yβ0x)
und daraus (und aus fY,X=ifYi,Xi durch die Unabhängigkeitsannahme erhält man die üblichen Wahrscheinlichkeitsgleichungen.

Ich bin jetzt glücklich :-)

Fabian Werner
quelle