Wahrscheinlichkeit - Warum multiplizieren?

22

Ich beschäftige mich mit der Maximum-Likelihood-Schätzung und lese, dass die Likelihood-Funktion das Produkt der Wahrscheinlichkeiten jeder Variablen ist. Warum ist es das Produkt? Warum nicht die Summe? Ich habe versucht, auf Google zu suchen, finde aber keine aussagekräftigen Antworten.

https://en.wikipedia.org/wiki/Maximum_likelihood

RuiQi
quelle
7
Es ist zu beachten, dass dies nicht notwendigerweise der Fall ist und im Allgemeinen die maximale Wahrscheinlichkeit in Bezug auf die gemeinsame Dichte der Zufallsvariablen definiert ist. Natürlich, wenn sie unabhängig sind, ist ihre gemeinsame Dichte nur das Produkt der Ränder
Ameise
Denken Sie daran, dass Multiplikation nur eine Abkürzung für Addition ist. Wenn ich 2 mal 3 sage, sage ich 2 + 2 + 2. Wir vermehren uns, weil wir faul sind. Wer hat Zeit, es auf die harte Tour zu machen? Sie können hinzufügen, ob es Ihnen hilft, zu sehen, was los ist (hat mir geholfen, das Monty Hall-Problem zu verstehen), aber nach einer Weile werden Sie sich langweilen.
candied_orange
Angenommen, Sie haben eine 80-prozentige Wahrscheinlichkeit für braune Haare und eine 75-prozentige Wahrscheinlichkeit für braune Augen. Halten Sie es für möglich, dass die Wahrscheinlichkeit, braunhaarig und braunäugig zu sein, hoch ist 80% + 75% = 155%? wie wäre es 80% * 75% = 60%?
njzk2

Antworten:

39

Dies ist eine sehr grundlegende Frage, und anstatt die formale Sprache und die mathematische Notation zu verwenden, werde ich versuchen, sie auf einer Ebene zu beantworten, auf der jeder, der die Frage verstehen kann, auch die Antwort verstehen kann.

Stellen Sie sich vor, wir haben eine Rasse von Katzen. Sie haben eine 75% ige Wahrscheinlichkeit, weiß geboren zu werden, und eine 25% ige Wahrscheinlichkeit, grau geboren zu werden, keine anderen Farben. Außerdem haben sie eine 50% ige Wahrscheinlichkeit, grüne Augen und 50% ige Wahrscheinlichkeit, blaue Augen zu haben, und Fellfarbe und Augenfarbe sind unabhängig voneinander.

Schauen wir uns nun einen Wurf mit acht Kätzchen an:

Bildbeschreibung hier eingeben

Sie werden sehen, dass 1 von 4 oder 25% grau sind. Außerdem hat 1 von 2 oder 50% blaue Augen. Nun ist die Frage,

Wie viele Kätzchen haben graues Fell und blaue Augen?

Sie können sie zählen, die Antwort ist eins. Das heißt, oder 12,5% von 8 Kätzchen.14×12=18

Warum passiert das? Weil jede Katze mit einer Wahrscheinlichkeit von 1 zu 4 grau ist. Wählen Sie also vier Katzen aus, und Sie können davon ausgehen, dass eine davon grau ist. Wenn Sie jedoch nur vier von vielen Katzen auswählen (und den erwarteten Wert von einer grauen Katze erhalten), hat die graue Katze eine 1: 2-Wahrscheinlichkeit für blaue Augen. Dies bedeutet, dass Sie von der Gesamtzahl der Katzen, die Sie auswählen, zuerst die Gesamtzahl mit 25% multiplizieren, um die grauen Katzen zu erhalten, und dann die ausgewählten 25% aller Katzen mit 50% multiplizieren, um die Katzen mit blauen Augen zu erhalten. Dies gibt Ihnen die Wahrscheinlichkeit, blauäugige graue Katzen zu bekommen.

Wenn Sie sie zusammenfassen, erhalten Sie , was3ergibt14+12 oder 6 von 8. In unserem Bild entspricht es, die Katzen mit blauen Augen mit den Katzen mit grauem Fell zu addieren - und das eine graue blauäugige Kätzchen zweimal zu zählen! Eine solche Berechnung kann ihren Platz haben, ist jedoch bei Wahrscheinlichkeitsberechnungen eher ungewöhnlich und sicherlich nicht die, nach der Sie fragen.34

rumtscho
quelle
1
Mir ist bewusst, dass die anderen Antworten hier dasselbe bedeuten. Dennoch denke ich, dass hier eine visuelle Darstellung erforderlich ist - wenn das OP das Konzept selbst visualisieren könnte, wäre er wahrscheinlich bereits zu der Antwort gekommen.
Rumtscho
Dies ist eine großartige Antwort, da jede unabhängige Variable in der Katzenmatrix als unabhängige Achse dargestellt wird. Dies macht es sehr einfach zu verstehen. Ich werde dieses Beispiel verwenden, um meine Kinder zu unterrichten!
Dotancohen
3
Diese Antwort ist tatsächlich fehlerhaft, da sie den beobachteten Wert und den erwarteten Wert noch miteinander verbindet. In Anbetracht dessen, wie beliebt es ist, werde ich versuchen, die Zeit zu finden, um es mit einer Erklärung zu aktualisieren, warum diese Art der Untergruppierung der Katzen uns einen Schätzer für die maximale Wahrscheinlichkeit gibt (oder das Problem zu lösen, 8 zufällige Katzen auszuwählen und herauszufinden, dass sie nicht die Katzen sind) diejenigen, die ich auf dem Bild gemalt habe).
Rumtscho
Warum kann das nicht die gesamte Population solcher Katzen sein? (Sagen wir, sie haben eine spezielle Forschungseigenschaft - ihre Zungen sind zum Beispiel chemilumineszent.) Dann ist die Verschmelzung nicht schädlich.
Eric Towers
16

EINBSEINBP(EINB)=P(EINB)=P(EIN)P(B)EIN1,EIN2,...EINnP(EINichichich)=ichichP(EINich)ich[1,2,...,n]

x1,x2,,xnnf(x1,x2,...,xn|θ)=ich=1ich=nf(xich|θ)

Bahgat Nassour
quelle
6

P(EINB)P(EIN)P(B)

Wenn Sie also davon ausgehen, dass alle Ihre Beobachtungen unabhängig sind, entspricht die Wahrscheinlichkeit, alle von Ihnen ermittelten Werte zu beobachten, dem Produkt der einzelnen Wahrscheinlichkeiten.

Cliff AB
quelle
8
P(EINB)
Hallo danke für die Antwort! Warum maximiere ich die Wahrscheinlichkeit (Gelenkdichtefunktion)? Warum kann ich nicht stattdessen die Summe der Wahrscheinlichkeiten aller Beobachtungen (oder einer anderen Funktion) maximieren? Ich möchte den Grund finden, warum die Gelenkdichtefunktion gewählt wird. Wikipedia startet mit der Fugendichtefunktion. Aber gibt es einen Grund, warum wir die Gelenkdichtefunktion verwenden? Das habe ich versucht zu verstehen.
RuiQi
@haziqRazali die Idee von MLE ist, die Schätzungen auszuwählen, um die Stichprobe zu erstellen, die Sie höchstwahrscheinlich mit der Verteilung angegeben haben. Daher der Name maximale Wahrscheinlichkeit
Repmat
1
@HaziqRazali Eine Frage wie "Warum maximieren Wahrscheinlichkeit" ist eine neue Frage (eine, die an anderer Stelle auf der Website gestellt und beantwortet wurde)
Glen_b - Monica
3

Warum nicht hinzufügen?

Weil das offensichtlich keinen Sinn ergibt. Angenommen, Sie haben ein Viertel und einen Nickel und möchten beide umdrehen. Es gibt eine 50% ige Chance, dass das Quartal Köpfe hochkommt, und eine 50% ige Chance, dass Nickel Köpfe hochkommt. Wenn die Chance, dass beide Köpfe auftauchen, die Summe wäre, würde dies eine 100% ige Chance ergeben, was offensichtlich falsch ist, da für HT, TH und TT keine Chance bleibt.

Warum multiplizieren?

Denn es macht Sinn. Wenn Sie die 50% ige Chance des Quartalsaufstiegs mit der 50% igen Chance des Nickelaufstiegs multiplizieren, erhalten Sie eine 0,5 x 0,5 = 0,25 = 25% ige Chance, dass beide Münzen Köpfe sind. Vorausgesetzt, es gibt vier mögliche Kombinationen (HH, HT, TH, HT) und jede ist gleich wahrscheinlich, passt dies perfekt. Bei der Bewertung der Wahrscheinlichkeit, dass zwei unabhängige Ereignisse auftreten, multiplizieren wir ihre einzelnen Wahrscheinlichkeiten.

Monty Harder
quelle
2

Ich lese diese Posts, weil ich wie beim Originalposter verstehen muss, warum die ' Wahrscheinlichkeit ' fn das ' Produkt ' der Dichte jedes Beispielwerts ist - ' x '. Ein lesbarer und logischer Grund wird unter der Überschrift Prinzip der maximalen Wahrscheinlichkeit angegeben. Ref: [ http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] Ein weiteres Zitat Mathematisch wird die Wahrscheinlichkeit definiert als die Wahrscheinlichkeit, eine Reihe von Messungen durchzuführen (gleiche Referenz) Kurz gesagt, die Wahrscheinlichkeit, dass Sie zu der Probe gekommen sind, die Sie zur Hand haben.

Genie
quelle
0

Ziel der Maximum-Likelihood-Methode ist es, Schätzer zu finden, die die Wahrscheinlichkeit maximieren, bestimmte Werte der Variablen (endogene Variable) zu beobachten. Das ist der Grund, warum wir die Wahrscheinlichkeit des Auftretens multiplizieren müssen.

Beispiel: Stellen Sie sich vor, dass die Anzahl der Anrufe, die eine Sekretärin in einer Stunde entgegennehmen kann, einer Giftverteilung folgt. Dann extrahieren Sie 2 Werte aus der Stichprobe (5 Anrufe und 8 Anrufe pro Stunde). Jetzt müssen Sie diese Frage beantworten. Was ist der Wert des Parameters, der die Wahrscheinlichkeit maximiert, 5 und 8 Telefonanrufe gleichzeitig zu beobachten? Versuchen Sie anschließend, mit der Wahrscheinlichkeit zu antworten, dass Sie alle Werte des Sam beobachten

Aufgrund der unabhängigen Zufallsvariablen

f (y1 = 5 Telefonanrufe) * f (y2 = 8 Telefonanrufe) = ∏if (y, θ) = L (θ, y1, y2)

Versuchen Sie schließlich zu beantworten, wie wahrscheinlich es ist, alle Werte der Stichprobe zu beobachten.

Enzo Cabañas
quelle