Diese Vorgänge werden auf ausgeführt Wahrscheinlichkeiten statt Wahrscheinlichkeiten. Obwohl die Unterscheidung subtil sein mag, haben Sie einen entscheidenden Aspekt identifiziert: Das Produkt zweier Dichten ist niemals eine Dichte.
Die Sprache im Blog weist darauf hin - aber gleichzeitig wird es auf subtile Weise falsch - also analysieren wir es:
Der Mittelwert dieser Verteilung ist die Konfiguration, für die beide Schätzungen am wahrscheinlichsten sind, und ist daher die beste Schätzung der tatsächlichen Konfiguration angesichts aller uns vorliegenden Informationen.
Wir haben bereits festgestellt, dass das Produkt keine Distribution ist. (Obwohl es durch Multiplikation mit einer geeigneten Zahl in eins umgewandelt werden könnte, ist das hier nicht der Fall.)
Die Wörter "Schätzungen" und "beste Vermutung" zeigen an, dass diese Maschinerie verwendet wird, um einen Parameter zu schätzen - in diesem Fall die "wahre Konfiguration" (x, y-Koordinaten).
Leider ist der Mittelwert ist nicht die beste Vermutung. Der Modus ist. Dies ist das Maximum Likelihood (ML) -Prinzip.
Damit die Erklärung des Blogs Sinn macht, müssen wir Folgendes annehmen. Erstens gibt es einen wahren, bestimmten Ort. Nennen wir es abstrakt . Zweitens meldet nicht jeder "Sensor" . Stattdessen wird ein Wert , der wahrscheinlich in der Nähe von . Das "Gaußsche" des Sensors gibt die Wahrscheinlichkeitsdichte für die Verteilung von . Um ganz klar zu sein, ist die Dichte für den Sensor eine Funktion , abhängig von , mit der Eigenschaft, dass für jede Region (in der Ebene) die Wahrscheinlichkeit besteht, dass der Sensor einen Wert in meldet istμ X i μ X i i f i μ R R.μμXiμXiifiμRR
Pr(Xi∈R)=∫Rfi(x;μ)dx.
Drittens wird angenommen, dass die beiden Sensoren mit physischer Unabhängigkeit arbeiten, was statistische Unabhängigkeit impliziert .
Per Definition ist die Wahrscheinlichkeit der beiden Beobachtungen die Wahrscheinlichkeitsdichte , die sie unter dieser gemeinsamen Verteilung haben würden, vorausgesetzt, der wahre Ort ist . Die Annahme der Unabhängigkeit impliziert, dass dies das Produkt der Dichten ist. Um einen subtilen Punkt zu verdeutlichen,x1,x2μ
Die Produktfunktion, die einer Beobachtung zuweist, ist keine Wahrscheinlichkeitsdichte für ; jedoch,f1(x;μ)f2(x;μ)xx
Das Produkt ist die Verbindungsdichte für das geordnete Paar .f1(x1;μ)f2(x2;μ)(x1,x2)
In der angegebenen Abbildung ist die Mitte eines Blobs, die Mitte eines anderen und die Punkte in seinem Raum repräsentieren mögliche Werte von . Beachten Sie, dass weder noch etwas über die Wahrscheinlichkeiten von sagen sollen ! ist nur ein unbekannter fester Wert . Es ist keine Zufallsvariable.x1x2μf1f2μμ
Hier ist eine weitere subtile Wendung: Die Wahrscheinlichkeit wird als Funktion von . Wir haben die Daten - wir versuchen nur herauszufinden, was wahrscheinlich ist. Was wir also zeichnen müssen, ist die Wahrscheinlichkeitsfunktionμμ
Λ(μ)=f1(x1;μ)f2(x2;μ).
Es ist ein seltsamer Zufall, dass auch dies ein Gaußscher ist! Die Demonstration ist aufschlussreich. Lassen Sie uns die Mathematik in nur einer Dimension (anstatt in zwei oder mehr) durchführen, um das Muster zu sehen - alles verallgemeinert sich auf mehr Dimensionen. Der Logarithmus eines Gaußschen hat die Form
logfi(xi;μ)=Ai−Bi(xi−μ)2
für die Konstanten und . Somit ist die Log-WahrscheinlichkeitAiBi
logΛ(μ)=A1−B1(x1−μ)2+A2−B2(x2−μ)2=C−(B1+B2)(μ−B1x1+B2x2B1+B2)2
wobei nicht von abhängt . Dies ist das Protokoll eines Gaußschen, bei dem die Rolle des durch das in der Fraktion angegebene gewichtete Mittel ersetzt wurde.Cμxi
Kehren wir zum Haupt-Thread zurück. Die ML-Schätzung von ist der Wert, der die Wahrscheinlichkeit maximiert . Entsprechend maximiert es diesen Gaußschen Wert, den wir gerade aus dem Produkt der Gaußschen abgeleitet haben. Per Definition ist das Maximum ein Modus . Es ist Zufall - resultierend aus der Punktsymmetrie jedes Gaußschen um sein Zentrum -, dass der Modus zufällig mit dem Mittelwert übereinstimmt.μ
Diese Analyse hat ergeben, dass mehrere Zufälle in der jeweiligen Situation die zugrunde liegenden Konzepte verdeckt haben:
Eine multivariate (gemeinsame) Verteilung wurde leicht mit einer univariaten Verteilung verwechselt (was nicht der Fall ist).
die Wahrscheinlichkeit sah aus wie eine Wahrscheinlichkeitsverteilung (was es nicht ist);
Das Produkt der Gaußschen ist zufällig Gaußsch (eine Regelmäßigkeit, die im Allgemeinen nicht zutrifft, wenn Sensoren auf nicht-Gaußsche Weise variieren).
und ihr Modus stimmt zufällig mit ihrem Mittelwert überein (was nur für Sensoren mit symmetrischen Antworten um die wahren Werte garantiert ist).
Nur wenn wir uns auf diese Konzepte konzentrieren und die zufälligen Verhaltensweisen beseitigen, können wir sehen, was wirklich vor sich geht.
Ich sehe bereits eine ausgezeichnete Antwort, aber ich poste nur meine, da ich bereits angefangen habe, sie zu schreiben.
Arzt 1 hat dieses Vorhersagemodell:d1∼N(μ1,σ1)
Arzt 2 hat dieses Vorhersagemodell:d2∼N(μ2,σ2)
Damit wir also die gemeinsame Wahrscheinlichkeit bewerten können, müssen wir nur erkennen, dass dies in seit aufgrund der Unabhängigkeit der beiden Ärzte.P(d1,d2)=P(d1|d2)P(d2) P(d1)P(d2) P(d1|d2)=P(d1)
quelle