Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere.
Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte.
Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige Interpretation der GAP-Statistik?
Für jede Erklärung wäre ich dankbar.
clustering
Peterpeter
quelle
quelle
clusGap
basierend auf globalmax verwendet und wusste nicht, wie ich maxSE implementieren soll.Antworten:
In vielen realen Datensätzen sind die Cluster jedoch nicht so genau definiert, und wir möchten in der Lage sein, die Maximierung der Lückenstatistik mit der Sparsamkeit des Modells in Einklang zu bringen. Ein typisches Beispiel: OPs erstes Bild. Wenn wir die Lücke Statistik sind die Maximierung allein , dann sollten wir das Modell mit 30 (oder sogar mehr!) Cluster auswählen. Unter der Annahme, dass diese Handlung nur weiter zunehmen wird, sind die Ergebnisse natürlich weniger nützlich. Also schlägt Tibshirani die 1-Standard-Fehlermethode vor :
Was informell den Punkt identifiziert, an dem die Anstiegsrate der Lückenstatistik zu "verlangsamen" beginnt.
clusGap
firstSEmax
Quelle: Robert Tibshirani, Günther Walther und Trevor Hastie (2001). Schätzen der Anzahl von Clustern in einem Datensatz über die Lückenstatistik.
quelle