Soll ich immer das wahrscheinlichste Ergebnis wählen, um die Chance zu maximieren, das Ergebnis eines Münzwurfs richtig zu erraten?

20

Das sind keine Hausaufgaben. Ich bin daran interessiert zu verstehen, ob meine Logik bei diesem einfachen Statistikproblem richtig ist.

Angenommen, ich habe eine 2-seitige Münze, bei der die Wahrscheinlichkeit, einen Kopf umzudrehen, und die Wahrscheinlichkeit, einen Schwanz umzudrehen, beträgt . Nehmen wir an, dass alle Flips unabhängige Wahrscheinlichkeiten haben. Nehmen wir nun an, ich möchte meine Chancen maximieren, vorherzusagen, ob die Münze beim nächsten Wurf ein Kopf oder ein Schwanz sein wird. Wenn , kann ich zufällig Kopf oder Zahl erraten und die Wahrscheinlichkeit, dass ich richtig liege, beträgt .P(H)1P(H)P(H)=0.50.5

Nehmen wir nun an, dass , wenn ich meine Chancen, richtig zu raten, maximieren möchte, sollte ich dann immer raten, wo die Wahrscheinlichkeit beträgt ?P(H)=0.20.8

Wenn ich einen dreiseitigen Würfel hätte und die Wahrscheinlichkeit, eine 1, 2 oder 3 zu würfeln, wäre , und Sollte ich immer 2 raten, um meine Chancen, richtig zu raten, zu maximieren? Gibt es einen anderen Ansatz, mit dem ich genauer raten kann?P(1)=0.1P(2)=0.5P(3)=0.4

Schildkröte
quelle
4
Es hört sich für mich so an, als würden Sie nach Unabhängigkeit fragen: Wenn Sie zum Beispiel einmal Kopf bekommen, macht das das nächste Mal die Wahrscheinlichkeit größer? Wenn Sie dies nicht fragen, können Sie Ihre Frage klären? (Wenn ich Ihre Frage richtig verstanden habe, lautet die Antwort "Ja": In Situationen wie Münzwurf ist das wahrscheinlichste Ergebnis immer das Ergebnis mit der höchsten Wahrscheinlichkeit, unabhängig davon, was zuvor passiert ist.)
arboviral
Danke für die Hilfe @arboviral. Ja, ich gehe von Unabhängigkeit aus. Ich habe die Frage aktualisiert, um dies anzuzeigen.
Turtle
4
Unter der Annahme, dass Unabhängigkeit das Beste ist, was Sie tun können, wählen Sie die Seite mit der höchsten Wahrscheinlichkeit. Denk darüber so. Sie haben keine anderen Informationen, um eine bessere Vermutung anzustellen. Alles, was Sie über die Würfel wissen, ist, wie oft eine bestimmte Seite auftaucht und was die letzten paar Würfe waren. Aus der Unabhängigkeit geht jedoch hervor, dass vorherige Zeilen keine Auswirkung auf den aktuellen Wurf haben. Vielleicht, wenn Sie mehr Informationen hätten, wie die Stärke, mit der Sie gewürfelt haben, den linken / rechten Werfer oder die Anzahl der Schütteln, bevor Sie gewürfelt haben. Wenn der Würfel jedoch wirklich fair ist, bezweifle ich, dass selbst die Detailgenauigkeit bessere Vorhersagen liefern würde.
Brent Ferrier
Ihre Vermutung ist richtig; Es ist eine unmittelbare Folge der Ungleichung des Inhabers (mit den Parametern ). (1,)
whuber
Wissen Sie, dass P (H) = 0,2 ist? Oder ist das etwas, was Sie herausfinden müssen, indem Sie die Ergebnisse beobachten?
Akavall

Antworten:

43

Du hast recht. Wenn ist und Sie einen Null-Eins- Verlust verwenden (das heißt, Sie müssen ein tatsächliches Ergebnis im Gegensatz zu einer Wahrscheinlichkeit oder etwas anderem erraten, und außerdem ist es genauso schlecht, Köpfe zu bekommen, wenn Sie Schwänze erraten Wenn Sie Schwänze bekommen, wenn Sie Köpfe erraten haben, sollten Sie jedes Mal Schwänze erraten.P(H)=0.2

Die Leute denken oft fälschlicherweise, dass die Antwort darin besteht, bei 80% der Versuche nach dem Zufallsprinzip den Endpunkt zu erraten und beim Rest den Kopf. Diese Strategie wird als " Wahrscheinlichkeitsabgleich " bezeichnet und wurde ausführlich in der Verhaltensentscheidung untersucht. Siehe zum Beispiel

West, RF & Stanovich, KE (2003). Ist der Wahrscheinlichkeitsvergleich klug? Assoziationen zwischen probabilistischen Entscheidungen und kognitiven Fähigkeiten. Memory & Cognition, 31 , 243–251. doi: 10.3758 / BF03194383

Kodiologist
quelle
1
+1 für den Zeiger auf die Wahrscheinlichkeitsübereinstimmung. Ich habe noch nie davon gehört, obwohl ich sicher bin, dass ich es täglich als kognitive Voreingenommenheit ausnütze! :)
leekaiinthesky
2
(+1) Dies bezieht sich auf ein weit verbreitetes Missverständnis bei der Interpretation multinomialer Regressionsmodelle und dergleichen: Die Leute können überrascht sein, dass die Verteilung der vorhergesagten Klassen nicht mit der Verteilung der beobachteten Klassen übereinstimmt und sogar nach Möglichkeiten suchen, dies zu "beheben" . (
Gut
1
(+1) für den Begriff "Wahrscheinlichkeitsübereinstimmung".
Haitao Du
13

Sie stellen im Wesentlichen eine sehr interessante Frage: Soll ich die Verwendung von "MAP Bayesian" Maximum a posteriori Estimation oder "Real Bayesian" vorhersagen?

Angenommen, Sie kennen die wahre Verteilung von und möchten dann unter Verwendung der MAP-Schätzung 100 Vorhersagen für die nächsten 100 Flip-Ergebnisse treffen. Sie sollten immer raten, dass der Flip der Schwanz ist , NICHT 20 Kopf und 80 Schwanz. Dies nennt man "MAP Bayesian", im Grunde tun Sie dasP(H)=0.22080

argmaxθf(x|θ)

Es ist nicht schwer zu beweisen, dass Sie auf diese Weise den vorhergesagten Fehler (0-1 Verlust) minimieren können. Der Beweis ist auf ~ Seite 53 der Einführung in das statistische Lernen zu finden .


Es gibt einen anderen Weg, der als "Real Bayesian" -Ansatz bezeichnet wird. Grundsätzlich versuchen Sie nicht, "das Ergebnis mit höchster Wahrscheinlichkeit auszuwählen, sondern alle Fälle wahrscheinlich zu berücksichtigen". Wenn Sie also gefragt werden, ob Sie die nächsten 100 Flips vorhersagen möchten, sollten Sie ihn / sie anhalten, denn wenn Sie 100 binäre Ergebnisse angegeben haben, Die Wahrscheinlichkeitsinformationen für jedes Ergebnis verschwinden. Stattdessen sollten Sie sich fragen, was Sie tun möchten, nachdem Sie die Ergebnisse kennen.

Angenommen, er / sie hat eine Verlustfunktion (für einen Verlust von 0: 1 nicht erforderlich. Die Verlustfunktion kann beispielsweise lauten: Wenn Sie einen Kopf verfehlen, müssen Sie 1 US-Dollar zahlen. Wenn Sie jedoch einen Schwanz verfehlen, müssen Sie zahlen $ 5, dh unausgeglichener Verlust) für Ihre Vorhersage, sollten Sie Ihr Wissen über die Ergebnisverteilung nutzen, um den Verlust über die gesamte Verteilung zu minimieren

xyp(x,y)L(f(x),y)

Nehmen Sie also Ihr Wissen über die Verteilung auf den Verlust auf, anstatt auf "stufenweise Weise", holen Sie sich die Vorhersagen und führen Sie die nächsten Schritte aus.

P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%

Haitao Du
quelle
4
MAP ist auch bayesianisch. Darüber hinaus beschreiben Sie beide Ansätze, ohne sich auf die Verwendung von Priors zu beziehen, was irreführend sein kann, da Sie über Bayes'sche Methoden schreiben und Priors das Kernmerkmal dieser Methoden sind.
Tim
"Wenn Sie jemand bittet, die nächsten 100 Flips vorherzusagen, sollten Sie sich weigern, das zu tun." Wenn mir jemand eine Milliarde Euro angeboten hätte, wenn ich richtig voraussage, würde ich das wahrscheinlich nicht ablehnen. Oder Sie meinen wahrscheinlich "vorhersagen" in einer anderen Bedeutung als "versuchen zu erraten".
JiK
„ wenn Sie 100 binäre Ergebnisse gegeben, verschwinden die probabilistischen Informationen für jedes Ergebnis“ Zuerst las ich dies als „wenn Sie gegeben werden 100 binäre Ergebnisse“ und konnte den Satz nicht verstehen, aber jetzt wurde mir klar , es könnte „bedeuten , wenn Sie geben 100 binäre Ergebnisse ". Welches ist richtig und wenn es das erste ist, was bedeutet es?
JiK
1
Ein sehr kleiner Punkt: Ich würde wahrscheinlich nach dem zweiten Absatz eine vertikale Linie einfügen, um anzuzeigen, dass die ersten beiden Absätze technisch genug sind, um die wörtliche Frage zu beantworten, und der Rest sind zusätzliche Informationen (die zweifellos interessant und nützlich sind).
JiK
2
Zum letzten Absatz: "Die MAP-Schätzung funktioniert nicht gut, wenn die Anzahl der Ergebnisse groß ist. - - Sie werden jedoch in 90% der Fälle falsch liegen !!" Nicht gut zu funktionieren ist immer eine Frage des Kontexts. Wenn es sich zum Beispiel um ein sich wiederholendes Wettspiel handelt (der Pot wird auf Personen aufgeteilt, die richtig raten oder zurückgegeben, wenn niemand raten kann), ist die MAP-Strategie auf lange Sicht mit einem hohen Gewinn verbunden, wenn Sie gegen Personen spielen, die z. B. ihre Vermutungen ziehen aus der Verteilung der Ergebnisse.
JiK
4

Aufgrund der Unabhängigkeit wird Ihr Erwartungswert immer maximiert, wenn Sie den wahrscheinlichsten Fall erraten. Es gibt keine bessere Strategie, da Sie bei jedem Wurf keine zusätzlichen Informationen über die Münze / den Würfel erhalten.

Überall dort, wo Sie ein weniger wahrscheinliches Ergebnis erraten, ist Ihre Gewinnerwartung geringer als wenn Sie den wahrscheinlichsten Fall erraten hätten. Daher ist es besser, nur den wahrscheinlichsten Fall zu erraten.

Wenn Sie es so machen wollten, dass Sie Ihre Strategie ändern mussten, während Sie gewürfelt haben, könnten Sie eine Münze / einen Würfel in Betracht ziehen, bei der Sie die Chancen anfangs nicht kennen und sie herausfinden müssen, während Sie würfeln.

Kitter Catter
quelle
1
Für mich ist diese Antwort die einfachste Erklärung. Wenn Sie eine Strategie definieren mussten, die das Ergebnis berücksichtigt, das Sie zuvor hatten, unterbrechen Sie damit die "unabhängigen" Wahrscheinlichkeiten.
Walfrat