Diese Frage ist von einem Minispiel von Pokemon Soulsilver inspiriert:
Stellen Sie sich vor, in diesem 5x6-Bereich sind 15 Bomben versteckt (BEARBEITEN: maximal 1 Bombe / Zelle):
Wie schätzen Sie die Wahrscheinlichkeit ein, eine Bombe auf einem bestimmten Feld zu finden, wenn man die Gesamtzahl der Zeilen / Spalten berücksichtigt?
Wenn Sie sich Spalte 5 ansehen (Gesamtzahl der Bomben = 5), könnten Sie denken: Innerhalb dieser Spalte ist die Chance, eine Bombe in Zeile 2 zu finden, doppelt so hoch wie in Zeile 1.
Diese (falsche) Annahme der direkten Proportionalität, die im Grunde genommen so beschrieben werden kann, dass standardmäßige Unabhängigkeitstestoperationen (wie im Chi-Quadrat) in den falschen Kontext gestellt werden, würde zu folgenden Schätzungen führen:
Wie Sie sehen, führt die direkte Proportionalität zu Wahrscheinlichkeitsschätzungen von über 100% und wäre sogar vorher falsch.
Also habe ich eine Computersimulation aller möglichen Permutationen durchgeführt, die zu 276 einzigartigen Möglichkeiten geführt hat, 15 Bomben zu platzieren. (gegebene Zeilen- und Spaltensummen)
Hier ist der Durchschnitt über die 276 Lösungen:
Dies ist die richtige Lösung, aber aufgrund der exponentiellen Rechenarbeit würde ich gerne eine Schätzmethode finden.
Meine Frage lautet nun: Gibt es eine etablierte statistische Methode, um dies abzuschätzen? Ich habe mich gefragt, ob dies ein bekanntes Problem ist, wie es heißt und ob es Artikel / Websites gibt, die Sie empfehlen können!
quelle
r2dtable
(und wird auch vonchisq.test
undfisher.test
unter bestimmten Umständen verwendet).Antworten:
Der Lösungsraum (gültige Bombenkonfigurationen) kann als Satz von zweigeteilten Diagrammen mit gegebener Gradfolge angesehen werden. (Das Gitter ist die Biadjazenzmatrix.) Die Erzeugung einer gleichmäßigen Verteilung auf diesem Raum kann mit den Markov-Chain-Monte-Carlo-Methoden (MCMC) erreicht werden: Jede Lösung kann mit Hilfe einer Folge von "Schaltern", die in Ihrer Puzzleformulierung enthalten sind, aus jeder anderen Lösung erhalten werden aussehen wie:
Es wurde nachgewiesen, dass dies eine schnelle Vermischungseigenschaft hat. Beginnen Sie also mit einer gültigen Konfiguration und setzen Sie einen MCMC, der eine Weile ausgeführt wird, um eine Annäherung an die gleichmäßige Verteilung der Lösungen zu erhalten, die Sie punktweise für die gesuchten Wahrscheinlichkeiten mitteln können.
Ich bin mit diesen Ansätzen und ihren rechnerischen Aspekten nur vage vertraut, aber zumindest vermeiden Sie auf diese Weise, eine der Nichtlösungen aufzulisten.
Ein Anfang der Literatur zum Thema:
https://faculty.math.illinois.edu/~mlavrov/seminar/2018-erdos.pdf
https://arxiv.org/pdf/1701.07101.pdf
https: // www. tandfonline.com/doi/abs/10.1198/016214504000001303
quelle
Es gibt keine eindeutige Lösung
Ich glaube nicht, dass eine echte diskrete Wahrscheinlichkeitsverteilung wiederhergestellt werden kann, es sei denn, Sie machen einige zusätzliche Annahmen. Ihre Situation ist im Grunde ein Problem der Wiederherstellung der gemeinsamen Verteilung von Marginals. Es wird manchmal durch die Verwendung von Copulas in der Branche gelöst , beispielsweise durch das Finanzrisikomanagement, normalerweise jedoch für kontinuierliche Verteilungen.
Präsenz, unabhängig, AS 205
Bei Anwesenheitsproblemen ist nicht mehr als eine Bombe in einer Zelle erlaubt. Auch für den Sonderfall der Unabhängigkeit gibt es eine relativ effiziente Rechenlösung.
Wenn Sie FORTRAN kennen, können Sie diesen Code verwenden , der den AS 205-Algorithmus implementiert: Ian Saunders, Algorithmus AS 205: Aufzählung von R x C-Tabellen mit wiederholten Zeilensummen, Angewandte Statistik, Band 33, Nummer 3, 1984, Seiten 340-352. Es ist verwandt mit Panefields Algo, auf das sich @Glen_B bezieht.
Dieser Algorithmus zählt alle Präsenztabellen auf, dh durchläuft alle möglichen Tabellen, in denen sich nur eine Bombe in einem Feld befindet. Es berechnet auch die Multiplizität, dh mehrere Tabellen, die gleich aussehen, und berechnet einige Wahrscheinlichkeiten (nicht die, an denen Sie interessiert sind). Mit diesem Algorithmus können Sie die vollständige Aufzählung möglicherweise schneller ausführen als zuvor.
Präsenz, nicht unabhängig
Der AS 205-Algorithmus kann auf einen Fall angewendet werden, in dem die Zeilen und Spalten nicht unabhängig sind. In diesem Fall müssten Sie für jede von der Aufzählungslogik generierte Tabelle eine andere Gewichtung anwenden. Das Gewicht hängt vom Platzierungsprozess der Bomben ab.
Grafen, Unabhängigkeit
Das Zählproblem erlaubt natürlich mehr als eine Bombe in einer Zelle. Der Sonderfall von unabhängigen Reihen und Spalten der Zählung Problem ist einfach:Pji=Pi×Pj
wobei Pi und Pj sind Rn von Zeilen und Spalten. Zum Beispiel Zeile P6=3/15=0.2 und Spalte P3=3/15=0.2 , daher ist die Wahrscheinlichkeit , dass eine Bombe in Zeile 6 und Spalte 3 istP36=0.04 . Sie haben diese Distribution tatsächlich in Ihrer ersten Tabelle erstellt.
Zählt, nicht unabhängig, diskrete Copulas
Um das Zählproblem zu lösen, bei dem Zeilen und Spalten nicht unabhängig voneinander sind, können wir diskrete Copulas anwenden. Sie haben Probleme: Sie sind nicht einzigartig. Es macht sie jedoch nicht unbrauchbar. Also würde ich versuchen, diskrete Copulas anzuwenden. Einen guten Überblick finden Sie in Genest, C. und J. Nešlehová (2007). Ein Primer für Copulas für Zähldaten. Astin Bull. 37 (2), 475–515.
Copulas können besonders nützlich sein, da sie es normalerweise ermöglichen, eine Abhängigkeit explizit zu induzieren oder sie anhand von Daten zu schätzen, wenn die Daten verfügbar sind. Ich meine die Abhängigkeit von Zeilen und Spalten beim Platzieren von Bomben. Zum Beispiel könnte es der Fall sein, wenn die Bombe eine der ersten Reihen ist, dann ist es wahrscheinlicher, dass es auch eine der ersten Spalten ist.
Beispiel
Unabhängig
Sie können sehen, dass in Spalte 5 die Wahrscheinlichkeit für die zweite Zeile doppelt so hoch ist wie die Wahrscheinlichkeit für die erste Zeile. Dies ist nicht falsch im Gegensatz zu dem, was Sie in Ihrer Frage zu implizieren schienen. Alle Wahrscheinlichkeiten summieren sich natürlich zu 100%, ebenso wie die Ränder auf den Panels mit den Frequenzen übereinstimmen. Zum Beispiel zeigt die Spalte 5 in der unteren Tafel 1/3, was erwartungsgemäß den angegebenen 5 von insgesamt 15 Bomben entspricht.
Positive Korrelation
Negative Korrelation
Sie sehen natürlich, dass sich alle Wahrscheinlichkeiten zu 100% summieren. Außerdem können Sie sehen, wie sich die Abhängigkeit auf die Form der PMF auswirkt. Für die positive Abhängigkeit (Korrelation) erhalten Sie die höchste PMF, die auf die Diagonale konzentriert ist, während sie für die negative Abhängigkeit außerhalb der Diagonale liegt
quelle
Ihre Frage macht dies nicht klar, aber ich gehe davon aus, dass die Bomben zunächst durch einfaches Zufallsstichprobenverfahren ohne Austausch über die Zellen verteilt werden (eine Zelle kann also nicht mehr als eine Bombe enthalten). Die Frage, die Sie aufgeworfen haben, ist im Wesentlichen die Entwicklung einer Schätzmethode für eine Wahrscheinlichkeitsverteilung, die (theoretisch) genau berechnet werden kann, die jedoch für die Berechnung großer Parameterwerte rechnerisch nicht mehr durchführbar ist.
Die genaue Lösung existiert, ist aber rechenintensiv
Suche nach guten Schätzmethoden
Der naive empirische Schätzer: Der Schätzer, den Sie in Ihrer grünen Tabelle vorgeschlagen und verwendet haben, ist:
quelle