Ich weiß nicht, welche Distanzfunktion zwischen Individuen bei nominalen (ungeordneten kategorialen) Attributen verwendet werden soll. Ich habe ein Lehrbuch gelesen und sie schlagen die Simple Matching- Funktion vor, aber einige Bücher schlagen vor, dass ich die nominalen in binäre Attribute ändern und den Jaccard- Koeffizienten verwenden sollte. Was ist jedoch, wenn die Werte des nominalen Attributs nicht 2 sind? Was ist, wenn dieses Attribut drei oder vier Werte enthält?
Welche Distanzfunktion soll ich für nominelle Attribute verwenden?
Antworten:
Technisch gesehen berechnen die meisten Programme zur Berechnung eines Dis- (Ähnlichkeits-) Maßes zwischen Personen anhand von Nominalattributen zunächst jede Nominalvariable in einen Satz von Dummy- Binärvariablen und berechnen dann ein Maß für Binärvariablen . Hier finden Sie Formeln einiger häufig verwendeter binärer Ähnlichkeits- und Unähnlichkeitsmaße .
Was sind Dummy-Variablen (auch One-Hot genannt)? Unten sind 5 Personen, zwei nominelle Variablen (A mit 3 Kategorien, B mit 2 Kategorien). 3 Dummies anstelle von A, 2 Dummies anstelle von B.
(Es ist nicht erforderlich, eine Dummy-Variable als "redundant" zu entfernen, wie dies normalerweise bei der Regression mit Dummies der Fall ist. Dies wird beim Clustering nicht praktiziert, obwohl Sie diese Option in besonderen Situationen möglicherweise in Betracht ziehen.)
Es gibt viele Maße für binäre Variablen, jedoch passen nicht alle logisch zu binären Dummy- Variablen, dh früheren nominalen. Sie sehen, für eine nominelle Variable sind die Tatsache "die 2 Individuen stimmen überein" und die Tatsache "die 2 Individuen stimmen nicht überein" von gleicher Bedeutung. Aber betrachten Sie das beliebte Jaccard-Maß , woaa+b+c
Hier besteht die Nichtübereinstimmung aus zwei Varianten, und ; aber für uns ist, wie bereits gesagt, jeder von ihnen von der gleichen Bedeutung wie Match . Daher sollten wir ein zweiGewicht , und erhalten Formel , bekannt als Dice (nach Lee Dice) oder Czekanovsky-Sorensen measure. Es ist besser für Dummy-Variablen geeignet. In der Tat ist der berühmte zusammengesetzte Gower- Koeffizient (der für Sie mit Ihren nominalen Attributen empfohlen wird) genau gleich Würfel, wenn alle Attribute nominal sind. Beachten Sie auch, dass für Dummy- Variablen Würfelmaß (zwischen Individuen) = Ochiai- Maß (das einfach a ist)c a a 2 ab c a a 2a2a+b+c Cosinus ) = Kulczynsky 2- Maß. Und mehr zu Ihrer Information, 1-Würfel = binäre Lance-Williams- Distanz, auch als Bray-Curtis- Distanz bekannt. Schauen Sie, wie viele Synonyme Sie haben - Sie werden sicher etwas davon in Ihrer Software finden!
Die intuitive Gültigkeit des Würfel-Ähnlichkeitskoeffizienten beruht auf der Tatsache, dass es sich lediglich um das Koexistenzverhältnis (oder die relative Übereinstimmung ) handelt. Nehmen Sie für das obige Daten-Snippet die nominelle Spalte
A
und berechnen Sie die5x5
quadratische symmetrische Matrix entweder mit1
(beide Personen fielen in dieselbe Kategorie) oder0
(nicht in dieselbe Kategorie). Berechnen Sie ebenfalls die Matrix fürB
.Summiere die entsprechenden Einträge der beiden Matrizen und dividiere durch 2 (Anzahl der nominalen Variablen) - hier bist du mit der Matrix der Würfelkoeffizienten. (Sie müssen also eigentlich keine Dummies erstellen, um Würfel zu berechnen. Mit Matrixoperationen können Sie dies wahrscheinlich schneller tun, als gerade beschrieben.) Informationen zur Zuordnung von nominalen Attributen finden Sie in einem verwandten Thema zu Würfeln .
Obwohl Würfel das offensichtlichste Maß sind, das verwendet werden soll, wenn Sie eine (Dis-) Ähnlichkeitsfunktion zwischen Fällen wünschen, in denen Attribute kategorisch sind, können andere binäre Maße verwendet werden - wenn ihre Formel die Überlegungen zu Ihren Nenndaten erfüllt.
Maßnahmen wie Simple Matching (SM oder Rand) , die im Zähler enthalten, passen nicht zu Ihnen, da sie 0-0 behandeln (beide Personen tun dies) keine bestimmte gemeinsame Eigenschaft / Kategorie haben) als Übereinstimmung, was offensichtlich Unsinn mit ursprünglich nominalen, qualitativen Merkmalen ist. Überprüfen Sie daher die Formel der Ähnlichkeit oder Unähnlichkeit, die Sie mit den Mengen von Dummy-Variablen verwenden möchten: Wenn als Grund für Gleichheit gilt oder impliziert , verwenden Sie dieses Maß nicht für nominelle Daten. Zum Beispiel quadratischer euklidischer Abstand , dessen Formel mit Binärdaten nur ddb+cdd2=p(1-SM)pa+da+b+c+d d d b+c (und ist in diesem Fall synonym mit Manhattan-Entfernung oder Hamming-Entfernung) behandelt als Grundlage für Gleichheit. Tatsächlich ist , wobei die Anzahl der binären Attribute ist; Daher ist der euklidische Abstand informativ gleichwertig mit SM und sollte nicht auf ursprünglich nominelle Daten angewendet werden.d d2=p(1−SM) p
Aber ...
Nachdem ich den vorherigen "theoretischen" Absatz gelesen hatte, wurde mir klar, dass - trotz allem, was ich geschrieben habe - die Mehrheit der binären Koeffizienten (auch diejenigen, die ) praktisch die meiste Zeit ausreicht. Ich habe durch Überprüfung festgestellt, dass bei Dummy-Variablen, die aus einer Reihe von nominalen Variablen erhalten wurden, der Würfelkoeffizient streng funktional mit einer Reihe anderer binärer Kennzahlen zusammenhängt (Akronym ist das Schlüsselwort der Kennzahl in SPSS):d
Da sich in vielen Anwendungen einer Proximity-Matrix, wie beispielsweise in vielen Methoden der Clusteranalyse, die Ergebnisse bei linearer (und manchmal sogar monotoner) Transformation von Ähnlichkeiten nicht oder reibungslos ändern, scheint dies für eine Vielzahl von gerechtfertigt zu sein binäre Maßnahmen neben Würfeln, um gleiche oder ähnliche Ergebnisse zu erhalten. Sie sollten jedoch zunächst überlegen / untersuchen, wie die spezifische Methode (z. B. eine Verknüpfung in hierarchischen Clustern) auf eine bestimmte Transformation von Ähnlichkeiten reagiert.
Wenn Ihre geplante Cluster- oder MDS-Analyse empfindlich auf monotone Transformationen von Entfernungen reagiert, sollten Sie keine in der obigen Tabelle als "monoton" angegebenen Maßnahmen verwenden (und daher ist es nicht ratsam, Jaccard-Ähnlichkeit oder nichtquadratische euklidische Entfernung mit Dummy zu verwenden dh frühere nominelle Attribute).
quelle