In Kapitel 9 des Buches Mustererkennung und maschinelles Lernen gibt es diesen Teil über das Gaußsche Mischungsmodell:
Um ehrlich zu sein, verstehe ich nicht wirklich, warum dies eine Singularität schaffen würde. Kann mir das jemand erklären? Es tut mir leid, aber ich bin nur ein Student und ein Anfänger im maschinellen Lernen, daher mag meine Frage etwas albern klingen, aber bitte helfen Sie mir. Vielen Dank
gaussian-mixture
Dang Manh Truong
quelle
quelle
Antworten:
Wenn wir einen Gaußschen Wert mit maximaler Wahrscheinlichkeit an einen einzelnen Datenpunkt anpassen möchten, erhalten wir einen sehr stacheligen Gaußschen Wert, der bis zu diesem Punkt "kollabiert". Die Varianz ist Null, wenn es nur einen Punkt gibt, was im Gaußschen Fall mit mehreren Variablen zu einer singulären Kovarianzmatrix führt, daher wird dies als Singularitätsproblem bezeichnet.
Wenn die Varianz Null wird, wird die Wahrscheinlichkeit der Gaußschen Komponente (Formel 9.15) unendlich und das Modell wird überpasst. Dies tritt nicht auf, wenn wir nur einen Gaußschen Wert an eine Anzahl von Punkten anpassen, da die Varianz nicht Null sein kann. Es kann jedoch vorkommen, dass wir eine Mischung aus Gaußschen haben, wie auf derselben Seite von PRML dargestellt.
Update :
Das Buch schlägt zwei Methoden zur Lösung des Singularitätsproblems vor:
1) Zurücksetzen des Mittelwerts und der Varianz, wenn Singularität auftritt
2) Verwenden von MAP anstelle von MLE durch Hinzufügen eines vorherigen.
quelle
Ich bin auch ein bisschen durch diesen Teil verwirrt, und hier ist meine Interpretation. Nehmen Sie der Einfachheit halber 1D-Fall.
Wenn ein einzelner Gaußscher auf einem Datenpunkt , dh μ = x i , "kollabiert" , wird die Gesamtwahrscheinlichkeit:xi μ=xi
Sie sehen , wie , der Begriff auf der linken Seite p ( x i ) → ∞ , die wie die pathologischen Fall in GMM ist, aber der Begriff auf der rechten Seite , die die Wahrscheinlichkeit von anderen Datenpunkten ist p ( x ∖ i ) enthält noch Begriffe wie e - ( x n - μ ) 2σ→0 p(xi)→∞ p(x∖i) wobei→0exponentiell schnell ist wieσ→0, so dass der Gesamteffekt auf die Wahrscheinlichkeit darin besteht, dass es auf Null geht.e−(xn−μ)22σ2 →0 σ→0
Der Hauptpunkt hierbei ist, dass beim Anpassen eines einzelnen Gaußschen Wertes alle Datenpunkte einen Parametersatz , anders als im Mischungsfall, in dem eine Komponente sich auf einen Datenpunkt "konzentrieren" kann, ohne die Gesamtdatenwahrscheinlichkeit zu beeinträchtigen .μ , σ
quelle
Diese Antwort gibt einen Einblick in das Geschehen, das zu einer singulären Kovarianzmatrix beim Anpassen eines GMM an einen Datensatz führt, warum dies geschieht und was wir tun können, um dies zu verhindern.
Daher beginnen wir am besten damit, die Schritte während der Anpassung eines Gaußschen Mischungsmodells an einen Datensatz zusammenzufassen.
0. Entscheiden Sie, wie viele Quellen / Cluster (c) Sie an Ihre Daten
anpassen möchten. 1. Initialisieren Sie die Parameter Mittelwert , Kovarianz Σ c und Bruch_pro_Klasse π c pro Cluster c
wobeiN(x|μ,Σ)beschreibt den Gauß'schen mulitvariate mit: N(xi,μc,Σc)=1
ricgibt uns für jeden Datenpunktxidas Maß:PRobeinbilitythatxibelongstoClas
μc=1
Σc=1
darandass Sie die aktualisierten Mittel in dieser letzten Formel verwenden. Iterativ wiederholen die E und MSchritt bis zur log-LikelihoodFunktion unseres Modell konvergiertwo das LogLikelihood mit berechnet wird: lnp(X|& pgr;,μ,Σ)=Σ N i = 1 ln(Σ K
ist nicht invertierbar und folgt Singular. Es ist auch plausibel, wenn wir davon ausgehen, dass die obige Matrix eine Matrix ist
Nachdem wir nun wissen, wie eine singuläre, nicht invertierbare Matrix aussieht und warum dies für uns bei den GMM-Berechnungen wichtig ist, wie konnten wir auf dieses Problem stoßen? Zuallererst bekommen wir das
Ok, aber jetzt wissen wir immer noch nicht, warum und wie wir auf eine Singularitätsmatrix stoßen. Deshalb müssen wir uns die Berechnungen der
Folglich ist dies, wie oben erwähnt, eine singuläre Matrix und führt zu einem Fehler bei der Berechnung des multivariaten Gaußschen. Wie können wir eine solche Situation verhindern? Nun, wir haben gesehen, dass die Kovarianzmatrix singulär ist, wenn es die ist
quelle
Imho, alle Antworten verfehlen eine grundlegende Tatsache. Wenn man sich den Parameterraum für ein Gaußsches Mischungsmodell ansieht, ist dieser Raum entlang des Unterraums singulär, in dem weniger als die volle Anzahl von Komponenten in der Mischung vorhanden ist. Das bedeutet, dass Derivate automatisch Null sind und in der Regel der gesamte Unterraum als mle angezeigt wird. Aus philosophischer Sicht ist der Unterraum von weniger als vollständigen Kovarianzen die Grenze des Parameterraums, und man sollte immer misstrauisch sein, wenn das mle an der Grenze auftritt - es zeigt normalerweise an, dass ein größerer Parameterraum lauert, in dem man den finden kann "echte" mle. Es gibt ein Buch mit dem Titel "Algebraic Statistics" von Drton, Sturmfeld und Sullivant. Dieses Problem wird in diesem Buch ausführlich behandelt. Wenn Sie wirklich neugierig sind, sollten Sie sich das ansehen.
quelle
Für einen einzelnen Gaußschen Wert kann der Mittelwert möglicherweise einem der Datenpunkte entsprechen (xn zum Beispiel) und dann gibt es den folgenden Begriff in der Wahrscheinlichkeitsfunktion:
Allerdings für einen Datenpunktxm anders als der Mittelwert σj , wir werden haben
quelle