Wie soll ich die GAP-Statistik interpretieren?

10

Ich habe die GAP-Statistik verwendet, um k Cluster in R zu schätzen. Ich bin mir jedoch nicht sicher, ob ich sie gut interpretiere. Geben Sie hier die Bildbeschreibung ein

Aus der obigen Darstellung gehe ich davon aus, dass ich 3 Cluster verwenden sollte.

Geben Sie hier die Bildbeschreibung ein

Aus dem zweiten Plot sollte ich 6 Cluster auswählen. Ist es die richtige Interpretation der GAP-Statistik?

Für jede Erklärung wäre ich dankbar.

Peterpeter
quelle
Zwei Fragen - Was zeigt die erste Handlung? Ist es eine GAP-Statistik für dieselben Daten? Warum sollte es anders aussehen als das zweite (was ich sehe, ist eine Lücke). Welche R-Funktionen haben Sie verwendet? Zweite Frage: Haben Sie die Regel '1-Standardfehler' verwendet, um 6 für das zweite Diagramm auszuwählen?
Deathkill14
Es gibt also zwei verschiedene Ansätze für das Clustering. Erste basierend auf Zeitreihen - Verkäufe während 26 Wochen und ich gruppierte Daten basierend auf dynamischer Zeitverzerrung. Der zweite Ansatz bestand darin, die Parameter der Wachstumskurve zu gruppieren, die ebenfalls auf dynamischer Zeitverzerrung beruhten. Ich habe clusGapbasierend auf globalmax verwendet und wusste nicht, wie ich maxSE implementieren soll.
Peterpeter

Antworten:

11

kkk=2

Lückenstatistik

In vielen realen Datensätzen sind die Cluster jedoch nicht so genau definiert, und wir möchten in der Lage sein, die Maximierung der Lückenstatistik mit der Sparsamkeit des Modells in Einklang zu bringen. Ein typisches Beispiel: OPs erstes Bild. Wenn wir die Lücke Statistik sind die Maximierung allein , dann sollten wir das Modell mit 30 (oder sogar mehr!) Cluster auswählen. Unter der Annahme, dass diese Handlung nur weiter zunehmen wird, sind die Ergebnisse natürlich weniger nützlich. Also schlägt Tibshirani die 1-Standard-Fehlermethode vor :

k^kGap(k)Gap(k+1)sk+1

Was informell den Punkt identifiziert, an dem die Anstiegsrate der Lückenstatistik zu "verlangsamen" beginnt.

k

Kommentiertes Bild 1

k>1k1

kclusGapkfirstSEmaxk=30k=19

Quelle: Robert Tibshirani, Günther Walther und Trevor Hastie (2001). Schätzen der Anzahl von Clustern in einem Datensatz über die Lückenstatistik.

Jayelm
quelle
1
kk
Vielen Dank, dass Sie auf den Kompromiss zwischen der Maximierung der
Lückenstatistik