Ich versuche zu verstehen, wie Menschen die Wahrscheinlichkeit für eine einfache lineare Regression ableiten. Nehmen wir an, wir haben nur ein Merkmal x und das Ergebnis y. Ich bezweifle nicht den Ausdruck mit der normalen Dichte selbst und ich bezweifle auch nicht, dass man das Produkt aufgrund der Unabhängigkeit in einfachere Faktoren zerlegen kann. Ich bezweifle, wie Menschen diesen Ausdruck ableiten. Es scheint einen ganzen Zoo von (teilweise falschen) Annahmen über die Eingabe zu geben, und fast überall wird der kritische Schritt (Name, wie man das Produkt normaler Dichten ableitet), bei dem man tatsächlich die richtigen Annahmen verwenden muss, weggelassen :-(
Was ich für selbstverständlich halte, ist Folgendes: Wir erhalten einen festen Trainingssatz und nehme das an
- die Paare im festen Trainingssatz der Länge kommen aus Zufallsvariablen das sind iid verteilt
- das sind eindimensionale iid-Zufallsvariablen, die jeweils als verteilt sind mit bekannt (um zu vereinfachen) (vielleicht sollte man etwas über die bedingte Dichte annehmen Hier? Die Leute scheinen sich nicht sicher zu sein, was sie hier tatsächlich annehmen sollen ...)
Lassen und lass . Ziel ist es nun, die bedingte Dichte zu bestimmen. Deutlich,
Frage:
Wie gehe ich von hier aus vor?
Ich sehe nicht, wie die Annahmen Informationen geben oder ungefähr deshalb kann ich diese Menge einfach nicht berechnen . Einige Leute könnten das auch denken und normal verteilt (oder normalverteilt) bedeutet das auch ist normal verteilt, aber ...
Es gibt eine Anweisung für normalverteilte Zufallsvariablen, die jedoch folgendermaßen lautet: If ist normal verteilt und sind dann feste Matrizen wird normalerweise wieder verteilt. Im obigen Fall ist Das ist keine konstante Matrix.
Andere Quellen scheinen zu übernehmen , dasswird normalerweise sofort verteilt. Dies scheint eine seltsame Annahme zu sein ... wie sollten wir das jemals an einem realen Datensatz testen können?
Grüße + danke,
FW
quelle
Antworten:
Die Schlüsselannahme abzuleitenfYi|Xi ist, dass das Rauschen unabhängig vom Eingang ist, das heißt ϵi ist unabhängig von Xi . Sie müssen nichts über die Verteilung von wissen oder annehmenXi .
Sie beginnen mit:
Nun wird die Unabhängigkeitsannahme verwendet, daϵi ist unabhängig von Xi , seine Dichte gegeben einen Wert von Xi ist einfach seine Dichte:
Man könnte alternativ sagen, dass die Verteilung des Rauschens bedingt istXi ist normal mit einer konstanten Varianz (und einem Mittelwert von 0) bei einem beliebigen Wert von Xi . Darauf kommt es wirklich an. Dies entspricht jedoch genau der üblichen Annahme:
quelle
Dank der Antwort von Benoit Sanchez verstand ich es endlich (wurde aber auf den falschen Weg einer Ersatzregel für bedingte Dichten gebracht). Die Antwort lautet wie folgt:
Das muss man annehmen
Man braucht die folgende einfache Beobachtung: Gegebenn reelle Zufallsvariablen Z1,...,Zn mit einer gemeinsamen Dichte fZ1,...,Zn und Bijektion Φ:Rn→Rn so dass Φ und Φ−1 sind dann differenzierbar
Die Schlüsselbeobachtung ist, dass die zweidimensionale Zufallsvariable(Yi,Xi) ist eine einfache Transformation von (ϵi,Xi) nämlich
Nun wenden wir die Beobachtung auf diese Situation an und erhalten
Jetztϵi ist unabhängig von Xi durch Annahme daher
Ich bin jetzt glücklich :-)
quelle