Ich frage mich, wie sich die folgende Zahl auf bekannte Maßnahmen bezieht, ob sie statistisch interessant ist und unter welchem Namen sie (möglicherweise) diskutiert wird:κ
κ=1−2N|X△Y|
mitdie Anzahl der Abtastwerte mit der Eigenschaft oder der Eigenschaft jedoch nicht beide (exklusives ODER, symmetrische Differenz), die Gesamtzahl der Abtastwerte. Wie der Phi-Koeffizient zeigt eine perfekte Übereinstimmung oder Nichtübereinstimmung an, und zeigt keine Beziehung an|X△Y|XYNκ=±1κ=0
Unter Verwendung der a, b, c, d-Konvention des 4-fach-Tisches, wie hier ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
ersetzen und bekommen
1−2(b+c)n=n−2b−2cn=(a+d)−(b+c)a+b+c+d = Hamann-Ähnlichkeitskoeffizient . Triff es zB hier . Zitieren:
Hamann-Ähnlichkeitsmaß. Dieses Maß gibt die Wahrscheinlichkeit an, dass ein Merkmal in beiden Elementen den gleichen Zustand aufweist (in beiden vorhanden oder in beiden nicht vorhanden), abzüglich der Wahrscheinlichkeit, dass ein Merkmal in beiden Elementen unterschiedliche Zustände aufweist (in dem einen vorhanden und in dem anderen nicht vorhanden). HAMANN hat einen Bereich von -1 bis +1 und ist monoton mit der Ähnlichkeit von Simple Matching (SM), Sokal & Sneath 1 (SS1) und Rogers & Tanimoto (RT) verwandt.
Vielleicht möchten Sie die Hamann-Formel mit der in den Begriffen a, b, c, d angegebenen Phi-Korrelation (die Sie erwähnen) vergleichen. Beide sind "Korrelations" -Maßnahmen - von -1 bis 1. Aber schauen Sie, Phis Zähler nähert sich nur dann 1, wenn sowohl a als auch d groß sind (oder ebenfalls -1, wenn sowohl b als auch c groß sind): Produkt, Sie wissen ... Mit anderen Worten, die Pearson-Korrelation und insbesondere die dichotome Datenhypostase Phi reagieren empfindlich auf die Symmetrie der Randverteilungen in den Daten. Hamanns Zähler , der Summen anstelle von Produkten hat, ist dafür nicht empfindlich: auch nichtad−bc(a+d)−(b+c)von zwei Summanden in einem Paar, das groß ist, reicht aus, damit der Koeffizient nahe 1 (oder -1) erreicht. Wenn Sie also ein "Korrelations" -Maß (oder Quasi-Korrelationsmaß) wünschen, das der Form der Randverteilungen trotzt, wählen Sie Hamann anstelle von Phi.
Illustration:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75
Ist die Hamann-Ähnlichkeit weithin bekannt und als interessante Maßnahme anerkannt?
Hans-Peter Stricker
1
Wie kann ich antworten? Wie viel weit verbreitet / akzeptiert wird ausreichen? :-) Es ist sicher weniger bekannt als Phi-Korrelation oder Jaccard-Ähnlichkeit. Trotzdem wird es manchmal verwendet. Google es zu sehen ... Eine seiner wichtigen Eigenschaften ist, dass es monoton äquivalent zu ... ist (siehe das Zitat).
ttnphns
Entschuldigung für meine naive Frage und danke für Ihre informative Antwort :-)
Hans-Peter Stricker
Können Sie mir einen Hinweis geben, unter welchen typischen Umständen ich eine "Korrelation ohne Randverteilungsform" und Hamann wählen möchte und unter welchen Umständen ich eine "Korrelation ohne Randverteilungsform" und Phi wählen möchte?
Hans-Peter Stricker
Hans, wenn Sie über wissenschaftliche Bereiche oder Ziele sprechen, in denen wir sie übereinander verwenden möchten - warum stellen Sie das nicht als separate Frage? Weil vielleicht mehr Leute kommen, um zu antworten.
Die Assoziationsmaßnahme sollte folgende zwingende Bedingungen erfüllen:r
r(J,K)≤r(J,J)∀J,K
min(r) sollte bei und beia=d=0max(r)b=c=0
r(J,K)=r(K,J)∀K,J
Unterscheidung zwischen positiver und negativer Assoziation
r sollte für beide Teilmengen
und linear mit (beachten Sie, dass Bedingung 4 verletzt)χ2−−√ad−bc<0ad−bc>=0χ2
und im Idealfall die folgenden nicht obligatorisch:
Der Bereich von sollte entweder , oderr{−1⋯+1}{0⋯+1}{0…∞}
r(b=c=0)>r(b=0⊻c=0)
r(a=0)=min(r) (strenger als 2) oben)
r(a+1)−r(a)=r(a+2)−r(a+1)
r(a=0,b,c,d),r(a=1,b−1,c−1,d+1),r(a=2,b−2,c−2,d+2)… sollten glatt sein
homogene Verteilung von in der Permutationsprober
Zufallsstichproben aus Populationen mit bekanntem : sollten selbst in kleinen Stichproben eine geringe Variabilität aufweisena,b,c,dr
einfache Berechnung, geringe Computerzeit
Alle Bedingungen werden von Jaccard , Russel & Rao (beide erfüllt Bereich ) und McConnaughey (Bereich )(aa+b+c)(aa+b+c+d){0⋯+1}(a2−bc(a+b)×(a+c)){−1⋯+1}
Dies wäre einfacher zu lesen, wenn Sie die Verwendung der Notation bearbeiten könnten . Ich mache einen kleinen Teil, um zu zeigen, wie. LATEX
kjetil b halvorsen
Bitte führen Sie Ihre beiden Antworten hier zusammen: Bearbeiten Sie eine davon, indem Sie den Inhalt der anderen hinzufügen, und löschen Sie dann eine.
Hubalek, Z. Assoziations- und Ähnlichkeitskoeffizienten, basierend auf binären Daten (Anwesenheit / Abwesenheit): Eine Bewertung (Biol. Rev., 1982) überprüft und bewertet 42 verschiedene Korrelationskoeffizienten für binäre Daten. Nur 3 von ihnen erfüllen grundlegende statistische Anforderungen. Leider wird das Problem der PRE-Interpretation (Proportional Reduction of Error) nicht diskutiert. Für die folgende Kontingenztabelle:
Die Assoziationsmaßnahme sollte folgende zwingende Bedingungen erfüllen:r
Unterscheidung zwischen positiver und negativer Assoziation
und im Idealfall die folgenden nicht obligatorisch:
Der Bereich von sollte entweder , oderr {−1⋯+1} {0⋯+1} {0…∞}
homogene Verteilung von in der Permutationsprober
Zufallsstichproben aus Populationen mit bekanntem : sollten selbst in kleinen Stichproben eine geringe Variabilität aufweisena,b,c,d r
einfache Berechnung, geringe Computerzeit
Alle Bedingungen werden von Jaccard , Russel & Rao (beide erfüllt Bereich ) und McConnaughey (Bereich )(aa+b+c) (aa+b+c+d) {0⋯+1} (a2−bc(a+b)×(a+c)) {−1⋯+1}
quelle