Weisen Sie Variablen in der Clusteranalyse Gewichte zu

11

Ich möchte den Variablen in meiner Clusteranalyse unterschiedliche Gewichte zuweisen, aber mein Programm (Stata) scheint keine Option dafür zu haben, daher muss ich dies manuell tun.

Stellen Sie sich 4 Variablen A, B, C, D vor. Die Gewichte für diese Variablen sollten sein

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Ich frage mich, ob einer der folgenden beiden Ansätze tatsächlich den Trick machen würde:

  1. Zuerst standardisiere ich alle Variablen (zB nach ihrem Bereich). Dann multipliziere ich jede standardisierte Variable mit ihrem Gewicht. Führen Sie dann die Clusteranalyse durch.
  2. Ich multipliziere alle Variablen mit ihrem Gewicht und standardisiere sie anschließend. Führen Sie dann die Clusteranalyse durch.

Oder sind beide Ideen völliger Unsinn?

[EDIT] Die Clustering-Algorithmen (ich versuche 3 verschiedene), die ich verwenden möchte, sind k-Mittelwerte, gewichtete durchschnittliche Verknüpfung und durchschnittliche Verknüpfung. Ich plane, eine gewichtete durchschnittliche Verknüpfung zu verwenden, um eine gute Anzahl von Clustern zu bestimmen, die ich anschließend in k-means einbinde.

SPi
quelle
1
Beide Wege sind im Allgemeinen nicht korrekt. Das Multiplizieren von Variablenwerten entspricht nicht der Gewichtung der Variablenbedeutung für das Clustering. Wenn das Programm keine Gewichtungsoption hat, können Sie dies manchmal mit Daten tun, wie Sie möchten - dies hängt jedoch von der genauen Art Ihres Clusters ab. Beschreiben Sie also (in Ihrer Frage) Details Ihres Clusters: Welchen Algorithmus und welche Methode Sie verwenden werden.
ttnphns
2
Beachten Sie, dass der einfachste und universellste Weg, Variablen zu gewichten (und die Gewichte sind ganze Zahlen oder können ganze Zahlen sein), einfach darin besteht, die Variablen mal diese Gewichte zu verbreiten. In Ihrem Beispiel können Sie 50 As, 25 Bs, 10 Cs, 15 Ds in Ihrem Clustering verwenden.
ttnphns
8
Oder die Alternative: Wenn Sie Clustering basierend auf einem euklidischen Maß verwenden oder k-means verwenden, multiplizieren Sie jede Variable mit der Quadratwurzel ihres Gewichts. Diese Multiplikation sollte natürlich nach jeder Vorverarbeitung (z. B. Standardisierung) erfolgen, die Sie möglicherweise vor dem Clustering durchführen möchten.
ttnphns

Antworten:

7

Eine Möglichkeit, einer Variablen ein Gewicht zuzuweisen, besteht darin, ihre Skala zu ändern. Der Trick funktioniert für die von Ihnen erwähnten Clustering-Algorithmen, nämlich. k-Mittel, gewichtete durchschnittliche Verknüpfung und durchschnittliche Verknüpfung.

Kaufman, Leonard und Peter J. Rousseeuw. " Gruppen in Daten finden: Eine Einführung in die Clusteranalyse ." (2005) - Seite 11:

Die Wahl der Maßeinheiten führt zu relativen Gewichten der Variablen. Das Ausdrücken einer Variablen in kleineren Einheiten führt zu einem größeren Bereich für diese Variable, was sich stark auf die resultierende Struktur auswirkt. Andererseits versucht man durch Standardisierung, allen Variablen das gleiche Gewicht zu geben, in der Hoffnung, Objektivität zu erreichen. Als solches kann es von einem Praktiker verwendet werden, der keine Vorkenntnisse besitzt. Es kann jedoch durchaus sein, dass einige Variablen in einer bestimmten Anwendung an sich wichtiger sind als andere, und dann sollte die Zuweisung von Gewichten auf dem Fachwissen basieren (siehe z. B. Abrahamowicz, 1985).

Andererseits gab es Versuche, Clustering-Techniken zu entwickeln, die unabhängig von der Skalierung der Variablen sind (Friedman und Rubin, 1967). Der Vorschlag von Hardy und Rasson (1982) besteht darin, nach einer Partition zu suchen, die das Gesamtvolumen der konvexen Hüllen der Cluster minimiert. Im Prinzip ist ein solches Verfahren in Bezug auf lineare Transformationen der Daten unveränderlich, aber leider existiert kein Algorithmus für seine Implementierung (mit Ausnahme einer Näherung, die auf zwei Dimensionen beschränkt ist). Daher scheint das Dilemma der Standardisierung derzeit unvermeidlich, und die in diesem Buch beschriebenen Programme überlassen die Wahl dem Benutzer

Abrahamowicz, M. (1985), Die Verwendung nicht numerischer a pnon-Informationen zur Messung von Unähnlichkeiten, Vortrag, der auf der vierten europäischen Tagung der Psychometrischen Gesellschaft und der Klassifikationsgesellschaften vom 2. bis 5. Juli in Cambridge (Großbritannien) vorgestellt wurde.

Friedman, HP und Rubin, J. (1967), zu einigen invarianten Kriterien für die Gruppierung von Daten. J. Amer. Statist. ASSOC6., 2, 1159 & ndash; 1178.

Hardy, A. und Rasson, JP (1982), Une nouvelle Approche des Problemes de Classification Automatique, Statist. Anal. Donnies, 7, 41 & ndash; 56.

Franck Dernoncourt
quelle
1
Ihre erste Referenz ist irgendwie verstümmelt: Leonard Kaufman und Peter J. Rousseeuw sind die Autoren des Buches, auf das Sie verlinken.
Nick Cox
Oh, danke, dass Sie darauf hingewiesen haben ... Ich wurde von Lavoisier verarscht, der auf ihrer Seite "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J." einen Fehler gemacht hat , der wiederum Gscholar verschraubte, mit dem ich die Referenz erhielt.
Franck Dernoncourt
Danke @FranckDernoncourt! Wenn die Skala (und damit der Bereich) der Variablen ihr Gewicht bestimmt, wäre Annäherung an 1.) in meiner ersten Frage keine irgendwie richtige Lösung?
SPi
2
Ja, Ansatz 1 ist der richtige und entspricht dem, was Kaufman, Leonard und Peter J. Rousseeuw in den Absätzen sagen, die ich in der Antwort zitiert habe. Ansatz 2 wäre nutzlos, da die Standardisierung die Gewichte entfernt :)
Franck Dernoncourt