Ich möchte den Variablen in meiner Clusteranalyse unterschiedliche Gewichte zuweisen, aber mein Programm (Stata) scheint keine Option dafür zu haben, daher muss ich dies manuell tun.
Stellen Sie sich 4 Variablen A, B, C, D vor. Die Gewichte für diese Variablen sollten sein
w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%
Ich frage mich, ob einer der folgenden beiden Ansätze tatsächlich den Trick machen würde:
- Zuerst standardisiere ich alle Variablen (zB nach ihrem Bereich). Dann multipliziere ich jede standardisierte Variable mit ihrem Gewicht. Führen Sie dann die Clusteranalyse durch.
- Ich multipliziere alle Variablen mit ihrem Gewicht und standardisiere sie anschließend. Führen Sie dann die Clusteranalyse durch.
Oder sind beide Ideen völliger Unsinn?
[EDIT] Die Clustering-Algorithmen (ich versuche 3 verschiedene), die ich verwenden möchte, sind k-Mittelwerte, gewichtete durchschnittliche Verknüpfung und durchschnittliche Verknüpfung. Ich plane, eine gewichtete durchschnittliche Verknüpfung zu verwenden, um eine gute Anzahl von Clustern zu bestimmen, die ich anschließend in k-means einbinde.
clustering
stata
SPi
quelle
quelle
Antworten:
Eine Möglichkeit, einer Variablen ein Gewicht zuzuweisen, besteht darin, ihre Skala zu ändern. Der Trick funktioniert für die von Ihnen erwähnten Clustering-Algorithmen, nämlich. k-Mittel, gewichtete durchschnittliche Verknüpfung und durchschnittliche Verknüpfung.
Kaufman, Leonard und Peter J. Rousseeuw. " Gruppen in Daten finden: Eine Einführung in die Clusteranalyse ." (2005) - Seite 11:
Abrahamowicz, M. (1985), Die Verwendung nicht numerischer a pnon-Informationen zur Messung von Unähnlichkeiten, Vortrag, der auf der vierten europäischen Tagung der Psychometrischen Gesellschaft und der Klassifikationsgesellschaften vom 2. bis 5. Juli in Cambridge (Großbritannien) vorgestellt wurde.
Friedman, HP und Rubin, J. (1967), zu einigen invarianten Kriterien für die Gruppierung von Daten. J. Amer. Statist. ASSOC6., 2, 1159 & ndash; 1178.
Hardy, A. und Rasson, JP (1982), Une nouvelle Approche des Problemes de Classification Automatique, Statist. Anal. Donnies, 7, 41 & ndash; 56.
quelle