Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren .
Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte Entfernungsberechnung neu codieren zu müssen.
Kennt jemand die Trägheitsformel, die in scikit verwendet wird / kennt eine einfache Möglichkeit, die Lückenstatistik mithilfe von Abstandsfunktionen auf hoher Ebene neu zu codieren?
clustering
python
k-means
scikit-learn
metric
Kratzen
quelle
quelle
python
.Antworten:
Ich denke, ich habe meine Antwort für kmeans Clustering gefunden:
Ich habe noch zwei Fragen:
quelle