Wie kann ich die optimale Entscheidungsschwelle abschätzen, wenn nur Beobachtungen eines durch Gaußsches Rauschen gestörten binären Signals mit unbekannten vorherigen Informationen vorliegen?
(Nein, das ist keine Hausaufgabenfrage)
Insbesondere denke ich an das folgende Modell: ist eine Zufallsvariable mit zwei :( H 0 , H 1 )
mit unbekannten Parametern: .
Aus diesen Parametern könnte der Maximum a Posteriori Log-Likelihood-Schwellenwert berechnet werden, wenn ich sie kenne. Ich habe ursprünglich darüber nachgedacht, wie man zuerst die Parameter schätzt, um an den Schwellenwert . Aber ich denke, es könnte robuster sein, direkt zu schätzen .Y t
Gedanken: Durch Normalisieren der Beobachtungen (Subtrahieren des Stichprobenmittelwerts und Division durch Standardabweichung) wird der Parameterraum in zwei Dimensionen reduziert: und .
quelle
Antworten:
Meine Intuition ist, dass es schwierig sein würde, die richtige Entscheidungsschwelle abzuleiten, die Sie erwarten:
Aus der globalen Statistik, die Sie in Betracht ziehen (Stichprobenmittelwert: ; Standardabweichung: komplexerer Ausdruck, aber ich bezweifle, dass es sich um ein Protokoll handelt).πμ0+ ( 1 - π) μ1
Ich würde das Problem folgendermaßen angehen:
Wenn die Annahme, dass klein ist, gemacht werden kannσ
Ich erwähne das, weil man bedenkt, dass die Entscheidungsschwelle nur dann von beeinflusst wird, wenn σ ausreichend hoch ist, damit sich beide Klassen überlappen können. Wenn die μs um mehr als ein paar σ entfernt sind , haben Klassenvorwahrscheinlichkeiten im Entscheidungsprozess nichts zu sagen!π σ μ σ
Wenn keine Annahme über kannσ
quelle
Zusammenfassend haben Sie zwei Verteilungen mit unbekannten Parametern und eine Messung, die möglicherweise aus einem der beiden stochastischen Prozesse stammt. Dies wird normalerweise als Datenassoziationsproblem bezeichnet und ist in der Tracking-Community sehr verbreitet und wird umfassend untersucht. Sie können einen PDAF-Algorithmus (Probability Data Association Filter) oder einen MHT-Algorithmus (Multi-Hypothesis Tracking) verwenden. Dies sollte Ihnen Schätzungen des Mittelwerts und der Varianz für jede Verteilung liefern.
Da Ihr Rauschen weiß und Gaußsch ist, sind ML, MAP und MMSE alternativ alle äquivalent und können durch Minimieren des mittleren quadratischen Fehlers (Kostenfunktion) ermittelt werden, wie dies in der vorherigen Antwort effektiv beschrieben wird. Ich würde einen dynamischen Programmieransatz verwenden, um das Minimum der Kostenfunktion zu finden. Dies sollte weniger komplex (rechnerisch) sein als die zuvor beschriebenen EM / Clustering-Methoden. Noch ein Kommentar: Der PDAF ist rekursiv. Angesichts des einfachen Signalmodells sollte es sehr effektiv funktionieren und ich erwarte einen Bruchteil der rechnerischen Komplexität des EM-Algorithmus. Viel Glück, -B
quelle
Es gibt einen Algorithmus von Kittler und Illingworth aus der Mitte der 1980er Jahre namens "Minimum Error Thresholding", der dieses Problem für Gaußsche Verteilungen löst. Kürzlich haben Mike Titterington (Universität Glasgow) und JH Xue (jetzt an der UCL) dies in einen formelleren statistischen Rahmen gestellt, siehe ihre gemeinsamen Veröffentlichungen in Fachzeitschriften.
quelle