Angenommen, zwei Gruppen, bestehend aus und jeweils einen Satz von 25 Elementen von den wichtigsten bis zu den unwichtigsten. Wie lassen sich diese Rankings am besten vergleichen?n 2
Natürlich ist es möglich, 25 Mann-Whitney-U-Tests durchzuführen, aber dies würde zu 25 zu interpretierenden Testergebnissen führen, was zu viel sein kann (und im strengen Sinne Fragen mehrerer Vergleiche aufwirft). Mir ist auch nicht ganz klar, dass die Ränge alle Annahmen dieses Tests erfüllen.
Ich würde mich auch für Literaturhinweise zu Rating vs. Ranking interessieren.
Einige Zusammenhänge: Diese 25 Punkte beziehen sich alle auf Bildung und die beiden Gruppen sind unterschiedliche Arten von Erziehern. Beide Gruppen sind klein.
BEARBEITEN als Antwort auf @ttnphns:
Ich wollte nicht den Gesamtrang der Elemente in Gruppe 1 mit Gruppe 2 vergleichen - das wäre eine Konstante, wie @ttnphns betont. Die Platzierungen in Gruppe 1 und Gruppe 2 sind jedoch unterschiedlich. Das heißt, Gruppe 1 kann Punkt 1 höher einstufen als Gruppe 2.
Ich konnte sie vergleichen, Element für Element, den mittleren oder mittleren Rang jedes Elements ermitteln und 25 Tests durchführen, aber ich fragte mich, ob es einen besseren Weg dafür gibt.
quelle
the best ways to compare these rankings
- welche Art von Unterschied zwischen den beiden Gruppen würdest du gerne wissen?Antworten:
Zusammenfassung
Ich teile meine Gedanken im Detailbereich . Ich denke, sie sind nützlich, um herauszufinden, was wir wirklich erreichen wollen.
Ich denke, dass das Hauptproblem hier ist, dass Sie nicht definiert haben, was eine Rangähnlichkeit bedeutet. Daher weiß niemand, welche Methode zum Messen des Unterschieds zwischen den Reihen besser ist.
Tatsächlich bleibt es uns daher unklar, eine auf Vermutungen basierende Methode zu wählen.
Was ich wirklich vorschlage, ist, zuerst ein mathematisches Optimierungsziel zu definieren. Nur dann werden wir sicher sein, ob wir wirklich wissen, was wir wollen.
Wenn wir das nicht tun, wissen wir wirklich nicht, was wir wollen. Wir könnten fast wissen , was wir wollen, aber fast zu wissen wissen .≠
Mein Text in Details ist im Wesentlichen ein Schritt in Richtung einer mathematischen Definition der Ähnlichkeit von Rängen . Sobald wir dies festgestellt haben, können wir mit Zuversicht vorwärts gehen, um die beste Methode zur Messung dieser Ähnlichkeit zu wählen.
Einzelheiten
Basierend auf einem Ihrer Kommentare:
Um dies zu beantworten, während das Ziel streng interpretiert wird:
Aber ich glaube nicht, dass Sie diese strenge Interpretation wirklich wollen . Deshalb denke ich, was Sie wirklich sagen wollten, ist:
Eine Lösung besteht darin, einfach den minimalen Bearbeitungsabstand zu messen . Das heißt, wie viele Bearbeitungen müssen mindestens in der Rangliste der Gruppe , damit sie mit der der Gruppe b identisch werden .a b
Eine Änderung kann als Austausch zweier Elemente definiert werden und kostet Punkte, je nachdem, wie viele Hops benötigt werden. Also, wenn Punkt mit Punkt getauscht werden mussn 1 (um identische Ränge zwischen denen der Gruppen a und b zu erzielen), betragen die Kosten für diese Bearbeitung 3 .3 a b 3
Aber ist diese Methode geeignet? Um dies zu beantworten, schauen wir uns das etwas genauer an:
Es ist nicht normalisiert. Wenn wir sagen , dass der Abstand zwischen Reihen der Gruppen ist 3 , während der Abstand zwischen den Reihen der Gruppen c , d ist 123 , bedeutet dies nicht zwangsläufig bedeuten , dass ein , b ähnlicher sind sie als c , d sind zueinander (es könnte auch bedeuten, dass c , d eine viel größere Menge von Elementen rangieren).a,b 3 c,d 123 a,b c,d c,d
Es wird davon ausgegangen, dass die Kosten jeder Bearbeitung in Bezug auf die Anzahl der Sprünge linear sind . Trifft dies auf unsere Anwendungsdomäne zu? Könnte es sein, dass eine logistische Beziehung besser geeignet ist? Oder eine exponentielle ?
Es wird davon ausgegangen, dass alle Elemente gleich wichtig sind. ZB wird Uneinigkeit im Ranglistenpunkt (z. B.) genauso behandelt wie Uneinigkeit im Ranglistenpunkt (z. B.) 5 . Trifft dies auf Ihre Domain zu? Wenn wir zum Beispiel Bücher rangieren, ist es dann genauso wichtig, dass wir uns nicht über die Rangfolge eines berühmten Buches wie TAOCP einig sind wie über die Rangfolge eines schrecklichen Buches wie TAOUP ?1 5
Sobald wir die obigen Punkte angesprochen haben und ein geeignetes Maß für die Ähnlichkeit zwischen zwei Rängen erreicht haben, müssen wir weitere interessante Fragen stellen, wie zum Beispiel:
quelle
Dies klingt wie der "Willcoxon-Test mit Vorzeichen" ( Wikipedia-Link ). Angenommen, die Werte Ihrer Ränge stammen aus derselben Menge (dh
[1, 25]
), dann ist dies ein Paar-Differenz-Test (mit der Null-Hypothese, dass diese Paare zufällig ausgewählt wurden). NB das ist eine Unähnlichkeitsbewertung!Es gibt beides
R
undPython
Implementierungen, die mit dieser Wiki-Seite verknüpft sind.quelle
Warnung: Es ist eine großartige Frage und ich kenne die Antwort nicht. Das ist also eher ein "Was würde ich tun, wenn ich müsste":
Bei diesem Problem gibt es viele Freiheitsgrade und Vergleiche, aber bei begrenzten Daten ist es wirklich eine Frage der effizienten Datenaggregation. Wenn Sie nicht wissen, welchen Test Sie ausführen sollen, können Sie immer einen mit Permutationen "erfinden":
Zuerst definieren wir zwei Funktionen:
Abstimmungsfunktion : Wie werden die Ranglisten gewertet, damit alle Ranglisten einer einzelnen Gruppe zusammengefasst werden können? Sie können beispielsweise dem bestplatzierten Objekt 1 Punkt und allen anderen Objekten 0 Punkte zuweisen. Sie würden jedoch eine Menge Informationen verlieren. Vielleicht ist es besser, etwas zu verwenden, das wie folgt aussieht: Der bestplatzierte Gegenstand erhält 1 Punkt, der zweitplatzierte 2 Punkte usw.
Vergleichsfunktion : So vergleichen Sie zwei aggregierte Scores zwischen zwei Gruppen. Da beide ein Vektor sind, würde es funktionieren, eine geeignete Norm für den Unterschied zu nehmen.
Nun mache folgendes:
Das Problem ist, dass wir die Verteilung der Teststatistik unter der Null nicht kennen, dass beide Gruppen gleich sind. Aber wenn sie gleich sind, könnten wir Beobachtungen zwischen Gruppen zufällig mischen.
Wiederholen Sie den Vorgang ungefähr 1000 Mal und verwenden Sie jetzt die Permutationsteststatistik als empirische Nullverteilung. Auf diese Weise können Sie einen p-Wert berechnen und nicht vergessen, ein nettes Histogramm zu erstellen und eine Linie für Ihre Teststatistik wie folgt zu zeichnen:
Ich gehe jedoch davon aus, dass es je nach Einstellung eine Menge Zufälligkeiten geben kann und dass Sie eine ziemlich große Stichprobe benötigen, um eine Catch-All-Methode anwenden zu können. Wenn Sie über Vorkenntnisse zu bestimmten Dingen verfügen, von denen Sie glauben, dass sie sich zwischen den beiden Gruppen unterscheiden (z. B. bestimmte Elemente), können Sie diese verwenden, um Ihre beiden Funktionen anzupassen. (Natürlich tun Sie dies wie gewohnt , bevor Sie den Test ausführen, und wählen Sie Designs erst dann aus, wenn Sie etwas Bedeutendes erhalten. )
PS Schieß mir eine Nachricht, wenn du an meinem (chaotischen) Code interessiert bist. Es ist ein bisschen zu lang, um es hier hinzuzufügen, aber ich würde es gerne hochladen.
quelle