Einige Quellen sagen, dass die Wahrscheinlichkeitsfunktion keine bedingte Wahrscheinlichkeit ist, andere sagen, dass dies der Fall ist. Das ist sehr verwirrend für mich.
Nach den meisten Quellen, die ich gesehen habe, sollte die Wahrscheinlichkeit einer Verteilung mit dem Parameter ein Produkt von Wahrscheinlichkeitsmassenfunktionen sein, wenn Stichproben von :n x i
Zum Beispiel verwenden wir in der logistischen Regression einen Optimierungsalgorithmus, um die Wahrscheinlichkeitsfunktion (Maximum Likelihood Estimation) zu maximieren und die optimalen Parameter und damit das endgültige LR-Modell zu erhalten. Angesichts der Trainingsmuster, von denen wir annehmen, dass sie unabhängig voneinander sind, möchten wir das Produkt der Wahrscheinlichkeiten (oder der gemeinsamen Wahrscheinlichkeitsmassenfunktionen) maximieren. Das scheint mir ziemlich offensichtlich zu sein.
Entsprechend der Beziehung zwischen: Wahrscheinlichkeit, bedingter Wahrscheinlichkeit und Ausfallrate ist "Wahrscheinlichkeit keine Wahrscheinlichkeit und keine bedingte Wahrscheinlichkeit". Es wird auch erwähnt, "Wahrscheinlichkeit ist eine bedingte Wahrscheinlichkeit nur im Bayes'schen Verständnis der Wahrscheinlichkeit, dh wenn Sie annehmen, dass eine Zufallsvariable ist."
Ich las über die verschiedenen Perspektiven der Behandlung eines Lernproblems zwischen Frequentist und Bayesian.
Laut einer Quelle haben wir für die Bayes'sche Folgerung a priori , die Wahrscheinlichkeit , und wir wollen das posteriore unter Verwendung des Bayes'schen Theorems erhalten:P ( X | θ ) P ( θ | X )
Bayesian Inference ist mir nicht vertraut. Wie kommt es, dass das die Verteilung der beobachteten Daten abhängig von ihren Parametern ist, auch als Wahrscheinlichkeit bezeichnet wird? In Wikipedia heißt es manchmal, es sei . Was bedeutet das?
Gibt es einen Unterschied zwischen den Definitionen von Frequentist und Bayesian bezüglich der Wahrscheinlichkeit?
Vielen Dank.
BEARBEITEN:
Es gibt verschiedene Arten der Interpretation des Bayes'schen Theorems - Bayes'sche Interpretation und der häufigen Interpretation (siehe: Bayes'schen Theorem - Wikipedia ).
quelle
Antworten:
Es gibt keinen Unterschied in der Definition - in beiden Fällen ist die Wahrscheinlichkeitsfunktion eine Funktion des Parameters, die proportional zur Abtastdichte ist. Genau genommen brauchen wir nicht, dass die Wahrscheinlichkeit gleich der Abtastdichte ist; es muss nur proportional sein, was das Entfernen multiplikativer Teile ermöglicht, die nicht von den Parametern abhängen.
Während die Abtastdichte als eine Funktion der Daten interpretiert wird, abhängig von einem spezifizierten Wert des Parameters, wird die Wahrscheinlichkeitsfunktion als eine Funktion des Parameters für einen festen Datenvektor interpretiert. Im Standardfall von IID-Daten haben Sie also:
In der Bayes'schen Statistik drücken wir den Bayes'schen Satz gewöhnlich in seiner einfachsten Form aus als:
Dieser Ausdruck für Bayes 'Theorem betont, dass beide seiner multilikativen Elemente Funktionen des Parameters sind, der für die hintere Dichte von Interesse ist. (Dieses Proportionalitätsergebnis definiert die Regel vollständig, da der Posterior eine Dichte ist und es daher eine eindeutige Multiplikationskonstante gibt, die die Integration zu einer ermöglicht.) Wie Sie in Ihrem Update hervorheben, weisen die Bayes'sche und die frequentistische Philosophie unterschiedliche Interpretationsstrukturen auf. Innerhalb des frequentistischen Paradigmas wird der Parameter im Allgemeinen als "feste Konstante" behandelt und wird daher nicht als Wahrscheinlichkeitsmaß angegeben. Frequentisten lehnen es daher ab, dem Parameter eine frühere oder spätere Verteilung zuzuweisen (für weitere Erläuterungen zu diesen philosophischen und interpretativen Unterschieden siehe z. B. O'Neill 2009 ).
quelle
Die Likelihood - Funktion definiert , unabhängig ausgewählt ist aus oder vor - dem statistischen Paradigma , das für die Schlußfolgerung verwendet wird, als eine Funktion, L ( θ ; x ) (oder L ( θ | x ) ), des Parameter θ , Funktion , die davon abhängt , - oder wird indiziert durch - die Beobachtung (en) x, die für diese Schlussfolgerung verfügbar sind. Und auch implizit abhängig von der Familie der Wahrscheinlichkeitsmodelle, die zur Darstellung der Variabilität oder Zufälligkeit in den Daten ausgewählt wurden. Für einen gegebenen Wert des Paares ( θ ,− − L(θ;x) L(θ|x) θ − − x ist der Wert dieser Funktion genauidentisch mit dem Wert der Dichte des Modells bei x, wenn er mit dem Parameter θ indiziert wird. Was oft grob als "Wahrscheinlichkeit der Daten" übersetzt wird.(θ,x) x θ
Um mehr maßgebliche und historische Quellen als eine frühere Antwort in diesem Forum zu zitieren ,
und
das erwähnt eine Verhältnismäßigkeit, die Jeffreys (und ich) überflüssig finden:
Um nur einen Satz aus dem hervorragenden historischen Beitrag von John Aldrich (Statistical Science, 1997) zu zitieren :
Hinweis: Ich finde die Unterscheidung in der Einleitung der Wikipedia-Seite über Wahrscheinlichkeitsfunktionen zwischen frequentistischen und bayesianischen Wahrscheinlichkeiten verwirrend und unnötig oder einfach falsch, da die große Mehrheit der gegenwärtigen bayesianischen Statistiker die Wahrscheinlichkeit nicht als Ersatz für die posteriore Wahrscheinlichkeit verwendet. In ähnlicher Weise klingt der "Unterschied", auf den auf der Wikipedia-Seite über das Bayes-Theorem hingewiesen wurde, verwirrender als alles andere, da dieses Theorem eine Wahrscheinlichkeitsaussage über einen Wechsel der Konditionierung ist, unabhängig vom Paradigma oder von der Bedeutung einer Wahrscheinlichkeitsaussage. ( Meiner Meinung nach ist es eher eine Definition als ein Satz!)
quelle
Als kleiner Nachtrag:
Der Name "Wahrscheinlichkeit" ist völlig irreführend, da es sehr viele verschiedene Bedeutungen gibt. Nicht nur die "normale Sprache", sondern auch in der Statistik. Ich kann mir mindestens drei verschiedene, aber auch verwandte Ausdrücke vorstellen, die alle Likelihood heißen. sogar in Lehrbüchern.
Das heißt, wenn man die multiplikative Definition von Wahrscheinlichkeit nimmt, gibt es nichts, was sie in irgendeine Art von Wahrscheinlichkeit im Sinne ihrer (z. B. axiomatischen) Definition verwandelt. Es ist eine reelle Zahl. Sie können eine Menge Dinge tun, um eine Wahrscheinlichkeit zu berechnen oder in Beziehung zu setzen (Verhältnisse nehmen, Prioritäten und Posterioren berechnen usw.) - aber an sich hat es keine Bedeutung in Bezug auf die Wahrscheinlichkeit.
Die Antwort wurde durch die viel informativere und umfassendere Antwort von Xi'an mehr oder weniger überholt. Aber auf Anfrage einige Lehrbuchdefinitionen von Likelihood:
quelle