Lösung für das deutsche Panzerproblem

10

Gibt es einen formalen mathematischen Beweis dafür , dass die Lösung den German Tank Problem ist eine Funktion von nur der Parameter k (Anzahl der beobachteten Proben) und m (Maximalwert unter beobachteten Proben)? Kann man also mit anderen Worten beweisen, dass die Lösung neben dem Maximalwert unabhängig von den anderen Stichprobenwerten ist?

Bogdan Alexandru
quelle
3
Sie fragen, wie Sie zeigen können, dass das Stichprobenmaximum für den Parameter ausreicht, der die Obergrenze einer diskreten Gleichverteilung von 1 bis angibt . θθ
Scortchi - Monica wieder einsetzen
2
Fisher-Neyman-Faktorisierungssatz Die Wahrscheinlichkeitsfunktion, die Wahrscheinlichkeit der beobachteten Proben (zusammengefasst durch das Maximum ) unter Berücksichtigung der Parameter (Anzahl der Tanks) kann vollständig in Form von und \ Pr (M = m | n) geschrieben werden , k) = \ begin {case} 0 & \ text {if} m> n \\ \ frac {\ binom {m - 1} {k - 1}} {\ binom nk} & \ text {if} m \ leq n, \ end {Fälle} Wäre das eine Antwort? kmnkm
Pr(M=m|n,k)={0if m>n(m1k1)(nk)if mn,
Sextus Empiricus
@ Scortchi das ist richtig, danke, dass du es für mich klarer formuliert hast.
Bogdan Alexandru
@MartijnWeterings no; Im Wesentlichen bitte ich (unter Berufung auf Scortchis obigen Kommentar) um einen Beweis dafür, dass das Stichprobenmaximum für die Lösung ausreicht, ohne die Lösung tatsächlich zu berechnen.
Bogdan Alexandru
Sie suchen also nicht nach dem Fisher Neyman-Faktorisierungssatz als Beweis?
Sextus Empiricus

Antworten:

15

Wahrscheinlichkeit

Häufige Probleme in der Wahrscheinlichkeitstheorie beziehen sich auf die Wahrscheinlichkeit von Beobachtungen gegebenem Modell und gegebenen Parametern (nennen wir sie ). Zum Beispiel sind die Wahrscheinlichkeiten für bestimmte Situationen in Kartenspielen oder Würfelspielen oft sehr einfach.x1,x2,...,xnθ

In vielen praktischen Situationen handelt es sich jedoch um eine umgekehrte Situation ( Inferenzstatistik ). Das heißt: Die Beobachtung ist gegeben und jetzt ist das Modell unbekannt , oder zumindest kennen wir bestimmte Parameter .x1,x2,...,xkθ

Bei dieser Art von Problemen beziehen wir uns häufig auf einen Begriff, der als Wahrscheinlichkeit der Parameter wird. Dies ist eine Glaubensrate an einen bestimmten Parameter gegebenen Beobachtungen . Dieser Term wird als proportional zur Wahrscheinlichkeit für die Beobachtungen ausgedrückt, unter der Annahme, dass ein Modellparameter hypothetisch wahr wäre. L(θ)θx1,x2,..xkx1,x2,..xkθ

L(θ,x1,x2,..xk)probability observations x1,x2,..xk given θ 

Für einen gegebenen Parameterwert unterstützt die Beobachtung diesen bestimmten Parameter (oder die Theorie / Hypothese, die diesen Parameter annimmt) umso mehr, je wahrscheinlicher eine bestimmte Beobachtung ist (relativ zur Wahrscheinlichkeit mit anderen Parameterwerten). . Eine (relativ) hohe Wahrscheinlichkeit wird unsere Überzeugung über diesen Parameterwert stärken (dazu gibt es viel mehr Philosophisches zu sagen).θx1,x2,..xn


Wahrscheinlichkeit im deutschen Panzerproblem

Für das deutsche Panzerproblem lautet die Wahrscheinlichkeitsfunktion für eine Reihe von Proben :x1,x2,..xk

L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0if max(x1,x2,..xk)>θ(θk)1if max(x1,x2,..xk)θ,

Ob Sie Proben {1, 2, 10} oder Proben {8, 9, 10} beobachten, sollte keine Rolle spielen, wenn die Proben aus einer gleichmäßigen Verteilung mit dem Parameter . Beide Stichproben sind mit der Wahrscheinlichkeit gleich wahrscheinlich, und unter Verwendung der Idee der Wahrscheinlichkeit sagt die eine Stichprobe nicht mehr über den Parameter als die andere Stichprobe.θ(θ3)1θ

Die hohen Werte {8, 9, 10} könnten Sie denken / glauben lassen, dass höher sein sollte. Es ist jedoch nur der Wert {10}, der Ihnen wirklich relevante Informationen über die Wahrscheinlichkeit von (der Wert 10 sagt Ihnen, dass zehn oder höher sein wird, die anderen Werte 8 und 9 tragen nichts zu diesen Informationen bei ).θθθ


Fisher Neyman Faktorisierungssatz

Dieser Satz sagt Ihnen, dass eine bestimmte Statistik (dh eine Funktion der Beobachtungen, wie der Mittelwert, der Median oder wie beim deutschen Panzerproblem das Maximum) ausreicht (enthält alle Informationen), wenn Sie können in der Wahrscheinlichkeitsfunktion die Terme herausrechnen, die von den anderen Beobachtungen abhängen, so dass dieser Faktor nicht sowohl vom Parameter als auch von (und Der Teil der Wahrscheinlichkeitsfunktion, der die Daten mit den hypothetischen Parameterwerten in Beziehung setzt, hängt nur von der Statistik ab, nicht jedoch von der Gesamtheit der Daten / Beobachtungen.T(x1,x2,,xk)x1,x2,,xkθx1,x2,,xk

Der Fall des deutschen Panzerproblems ist einfach. Sie können oben sehen, dass der gesamte Ausdruck für die obige Wahrscheinlichkeit bereits nur von der Statistik abhängig ist und der Rest der Werte keine Rolle spielt.max(x1,x2,..xk)x1,x2,..xk


Kleines Spiel als Beispiel

Nehmen wir an, wir spielen das folgende Spiel wiederholt: ist selbst eine Zufallsvariable und wird mit gleicher Wahrscheinlichkeit entweder 100 oder 110 gezogen. Dann ziehen wir eine Stichprobe .θx1,x2,...,xk

Wir wollen eine Strategie zum Erraten von wählen , basierend auf den beobachteten , die unsere Wahrscheinlichkeit maximiert, die richtige Vermutung von .θx1,x2,...,xkθ

Die richtige Strategie besteht darin, 100 zu wählen, es sei denn, eine der Zahlen in der Stichprobe ist> 100.

Wir könnten versucht sein, den Parameterwert 110 bereits zu wählen, wenn viele der dazu neigen, alle hohe Werte nahe hundert (aber keine genau über hundert) zu sein, aber das wäre falsch. Die Wahrscheinlichkeit für eine solche Beobachtung ist größer, wenn der wahre Parameterwert 100 ist als wenn er 110 ist. Wenn wir also in einer solchen Situation 100 als Parameterwert erraten, ist es weniger wahrscheinlich, dass wir einen Fehler machen (weil der Eine Situation mit diesen hohen Werten nahe hundert, die jedoch immer noch darunter liegen, tritt häufiger auf, wenn der wahre Wert 100 beträgt, als wenn der wahre Wert 110 beträgt.x1,x2,...,xk

Sextus Empiricus
quelle
Super, genau das, was ich brauchte! Nur ein Kommentar zu Ihrer letzten Klammer: Sie sagen "diese hohen Werte nahe hundert kommen häufiger vor ...", was ich verstehe, warum es wahr ist, aber nur um zu verdeutlichen: Jeder Wert zwischen 1 und 100 tritt eher auf wenn, wenn der Parameter 100 ist (im Wesentlichen ist die Wahrscheinlichkeit für jede Zahl in 1-100 1 / Parameter).
Bogdan Alexandru
Auch jetzt macht Ihr erster Kommentar zu meinem Beitrag Sinn - wenn ich gewusst hätte, wie man diese Konzepte anwendet, wäre Ihr Kommentar genau der Hinweis gewesen, den ich benötigt hätte, um den Beweis zu erhalten. Danke noch einmal!
Bogdan Alexandru
@ BogdanAlexandru Sie haben Recht; Dies gilt für jeden Wert zwischen 1 und 100. Das ist die kontraintuitive Idee. Wir neigen dazu zu glauben, dass höhere beobachtete Werte für einen bestimmten Parameterwert irgendwie mehr Beweise liefern als niedrige beobachtete Werte, aber für jede Zahl ist dies gleich wahrscheinlich und trägt daher / sollte nichts zu unserer Überzeugung über den Modellparameter bei ( Außer dem Maximalwert, den wir beobachten. Aber selbst in dem Spiel, das ich nur mit einer Auswahl zwischen zwei Werten getroffen habe. Es ist so, dass selbst das Maximum keine weiteren Informationen liefert, wenn es höher oder niedriger ist, außer um die Hundertgrenze).
Sextus Empiricus
Mein erster Kommentar war vielleicht zu schwer, aber ich habe nur gestochert, um zu sehen, welche Art von Antwort notwendig war. Insbesondere finde ich den Begriff „Beweis“ etwas stark und habe mich gefragt, ob Sie nur nach dem Faktorisierungssatz gesucht haben (was eine Frage wäre, die mit Ja beantwortet würde, wenn Sie diesen Satz nicht kennen würden) oder ob Sie nach etwas Vagerem suchen und philosophisch, wie selbst herausfordernde Konzepte von Statistik / Wahrscheinlichkeit und über einen solchen Satz hinauszugehen, um nach einer anderen Art von "Beweis" zu suchen.
Sextus Empiricus
Dann lesen Sie gut über meine Absichten! Danke noch einmal.
Bogdan Alexandru
0

Sie haben keine genaue Formulierung des "Problems" vorgelegt, daher ist nicht genau klar, was Sie beweisen möchten. Aus Bayes'scher Sicht hängt die hintere Wahrscheinlichkeit von allen Daten ab. Jede Beobachtung einer bestimmten Seriennummer unterstützt diese Nummer jedoch am meisten. Das heißt, bei jeder Beobachtung ist das Quotenverhältnis zwischen posterior und prior für die Hypothese "die tatsächliche Anzahl von Tanks ist " größer als für "die tatsächliche Anzahl von Tanks ist [andere Anzahl als ]". Wenn wir also mit einem einheitlichen Prior beginnen, hat nach dieser Beobachtung den höchsten posterioren Wert.nnnn

Stellen Sie sich einen Fall vor, in dem wir den Datenpunkt und die Hypothesen . Offensichtlich ist der hintere Teil für Null. Und unsere Posterioren für werden größer sein als ihre vorherigen. Der Grund dafür ist, dass in der Bayes'schen Argumentation das Fehlen von Beweisen ein Beweis für das Fehlen ist. Jedes Mal, wenn wir die Gelegenheit haben , eine Beobachtung zu machen, die unsere Wahrscheinlichkeit verringert hätte, aber nicht, steigt die Wahrscheinlichkeit. Da wir gesehen haben könnten , was unsere Posterioren für auf Null gesetzt hätte, bedeutet die Tatsache, dass wir es nicht gesehen haben, dass wir unsere Posterioren für erhöhen sollten13N=10,13,15N=10N=13,1516N=13,15N=13,15 . Beachten Sie jedoch, dass je kleiner die Zahl, desto mehr Zahlen hätten wir sehen können, die diese Zahl ausgeschlossen hätten. Für wir diese Hypothese verworfen, nachdem wir . Aber für wir mindestens benötigt , um die Hypothese abzulehnen. Da die Hypothese mehr falsifizierbar als , die Tatsache , dass wir nicht fälschen mehr Beweise für ist , als nicht zu fälschen ist ein Beweis für .N=1314,15,16,...N=1516N=13N=15N=13N=13N=15N=15

Jedes Mal, wenn wir einen Datenpunkt sehen, setzt er den hinteren Teil von allem, was darunter liegt, auf Null und erhöht den hinteren Teil von allem anderen, wobei kleinere Zahlen den größten Schub erhalten. Somit ist die Zahl, die den insgesamt größten Boost erhält, die kleinste Zahl, deren posterior nicht auf Null gesetzt wurde, dh der Maximalwert der Beobachtungen.

Zahlen, die kleiner als das Maximum sind, beeinflussen, wie viel größer ein Boost ist, aber es hat keinen Einfluss auf den allgemeinen Trend, dass das Maximum den größten Boost erhält. Betrachten Sie das obige Beispiel, in dem wir bereits gesehen haben . Wenn die nächste Zahl , welchen Effekt hat das? Es hilft mehr als , aber beide Zahlen wurden bereits abgelehnt, das ist also nicht relevant. Es hilft mehr als , aber bereits mehr als geholfen , so dass es keinen Einfluss darauf hat, welcher Nummer am meisten geholfen wurde.1355613151315

Akkumulation
quelle
Dieses Beispiel hängt stark von der Situation ab und die Aussagen sind nicht allgemein. Wenn zum Beispiel der Prior für 13 50% und für 15 50% beträgt, ist die Beobachtung von 13 nicht so, dass "unsere Posterioren für N = 13, 15 größer sind als ihre vorherigen". Beobachtungen können den Posterior relativ zum Prior verringern .
Sextus Empiricus
Auch die Beobachtung weiterer Zahlen kann die Folgerung verändern. In dem Fall "Wenn die nächste Zahl, die wir sehen, 5 ist ..." ändert sich der hintere Teil immer noch, selbst wenn Zahlen bereits "geholfen" wurden, können zusätzliche Zahlen diese "Hilfe" erhöhen (z. B. wenn Sie alle Zahlen abtasten 1,2, ... 12, 13 dann erhöht dies den Seitenzahn um 13 mehr als wenn Sie nur Probe 13)
Sextus Empiricus