Ich führe eine schnelle Simulation durch, um verschiedene Clustering-Methoden zu vergleichen, und stoße derzeit auf einen Haken beim Versuch, die Cluster-Lösungen zu bewerten.
Ich kenne verschiedene Validierungsmetriken (viele finden sich in cluster.stats () in R), aber ich gehe davon aus, dass diese am besten verwendet werden, wenn die geschätzte Anzahl von Clustern tatsächlich der tatsächlichen Anzahl von Clustern entspricht. Ich möchte die Fähigkeit beibehalten, zu messen, wie gut eine Clustering-Lösung funktioniert, wenn sie nicht die richtige Anzahl von Clustern in der ursprünglichen Simulation angibt (dh wie gut Daten eines Drei-Cluster-Lösungsmodells simuliert wurden, um einen 4-Cluster zu haben Lösung). Nur zu Ihrer Information werden Cluster so simuliert, dass sie identische Kovarianzmatrizen besitzen.
Ich dachte, die KL-Divergenz zwischen zwei Gemischen von Gaußschen wäre nützlich zu implementieren, aber es gibt keine geschlossene Lösung ( Hershey und Olson (2007) ), und die Implementierung einer Monte-Carlo-Simulation beginnt rechenintensiv zu werden.
Gibt es andere Lösungen, die möglicherweise einfach zu implementieren sind (auch wenn es sich nur um eine Annäherung handelt)?
Antworten:
Angenommen, wir haben zwei Gaußsche Mischungen in : Nennen Sie ihre Dichten bzw. und bezeichnen Sie die Dichten ihrer Komponenten , mit , .Rd
P=∑i=1nαiPi=∑i=1nαiN(μi,Σi)Q=∑j=1mβjQj=∑j=1mN(mj,Sj). p(⋅) q(⋅) Pi Qj pi(x)=N(x;μi,Σi) qj(x)=N(x;mj,Sj)
Folgende Entfernungen stehen in geschlossener Form zur Verfügung:
Die maximale mittlere Diskrepanz (MMD) mit einem Gaußschen RBF-Kernel. Dies ist eine coole Distanz, die in der Statistik-Community noch nicht sehr bekannt ist und deren Definition ein wenig Mathematik erfordert.
Lassen Sie definieren Sie den Hilbert-Raum als der reproduzierende Kernel-Hilbert-Raum, der : .k(x,y):=exp(−12σ2∥x−y∥2), H k k(x,y)=⟨φ(x),φ(y)⟩H
Definieren Sie den mittleren Kartenkern alsK(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
Die MMD ist dannMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Beachten Sie für unsere Gemische und , dass und ähnlich für und .P Q K(P,Q)=∑i,jαiβjK(Pi,Qj) K(P,P) K(Q,Q)
Es stellt sich heraus, unter Verwendung von ähnlichen Tricks wie für , dass istL2 K(N(μ,Σ),N(μ′,Σ′)) (2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Als konvergiert dies eindeutig gegen ein Vielfaches der Distanz. Normalerweise möchten Sie jedoch ein anderes , eines auf der Skala der Datenvariation.σ→0 L2 σ
Geschlossene Formen sind auch für Polynomkerne in der MMD verfügbar ; sehenk
Für viele schöne Eigenschaften dieser Entfernung siehe
Quadratische Jensen-Rényi-Divergenz. Die Rényi- Entropie ist definiert als Seine Grenze als ist die Shannon-Entropie. Die Jensen-Rényi-Divergenz ist wobei eine gleiche Mischung zwischen und . Es stellt sich heraus, dass Sie, wenn und und Gaußsche Gemische sind (wie hier), eine geschlossene Form für berechnen können . Dies wurde von gemachtα Hα(p)=11−αlog(∫p(x)αdx). α→1 JRα(p,q)=Hα(p+q2)−Hα(p)+Hα(q)2 p+q2 p q α=2 P Q JR2
quelle
Wenn Ihre Cluster eigentlich keine Gaußschen Mischungen sind, sondern willkürlich geformt, können Ihre Ergebnisse tatsächlich viel besser sein, wenn Sie viel mehr Cluster erzeugen, und anschließend einige erneut zusammenführen.
In vielen Fällen wählt man einfach k als willkürlich hoch, z. B. 1000 für einen großen Datensatz; insbesondere, wenn Sie nicht wirklich an den Modellen interessiert sind, sondern nur die Komplexität des Datensatzes durch Vektorquantisierung reduzieren möchten.
quelle
Hier ist eine Verallgemeinerung des Mahalanobis D auf GMMs unter Verwendung der Fisher-Kernel-Methode und anderer Techniken:
Tipping, Michael E. "Ableiten von clusteranalytischen Distanzfunktionen aus Gaußschen Mischungsmodellen." (1999): 815 & ndash; 820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf
Siehe auch: Gibt es eine Multi-Gauß-Version der Mahalanobis-Distanz?
quelle