Wenn Sie in letzter Zeit die Community-Bulletins gelesen haben, haben Sie wahrscheinlich The Hunting of the Snark gesehen, einen Beitrag auf dem offiziellen StackExchange-Blog von Joel Spolsky, dem CEO des StackExchange-Netzwerks. Er diskutiert eine statistische Analyse, die an einer Stichprobe von SE-Kommentaren durchgeführt wurde, um deren "Freundlichkeit" aus der Perspektive eines externen Benutzers zu bewerten. Die Kommentare wurden von StackOverflow nach dem Zufallsprinzip ausgewählt und die Inhaltsanalysten waren Mitglieder der Mechanical Turk-Community von Amazon, einem Markt für Arbeit , der Unternehmen mit Arbeitnehmern verbindet, die kleine, kurze Aufgaben zu erschwinglichen Gebühren erledigen.
Vor nicht allzu langer Zeit war ich Diplom-Politikwissenschaftlerin und nahm unter anderem an einer Lehrveranstaltung zur Analyse statistischer Inhalte teil . Das abschließende Projekt der Klasse, eigentlich ihr gesamter Zweck, bestand darin, eine detaillierte Analyse der Kriegsberichte der New York Times durchzuführen , um zu testen, ob viele Annahmen, die Amerikaner über die Berichterstattung in Kriegen machen, zutreffend sind oder nicht (Spoiler: Beweise deuten darauf hin, dass sie zutreffen) nicht). Das Projekt war riesig und hat ziemlich viel Spaß gemacht, aber der mit Abstand schmerzhafteste Abschnitt war die "Schulungs- und Zuverlässigkeitstestphase", die stattfand, bevor wir eine vollständige Analyse durchführen konnten. Es hatte zwei Zwecke (siehe Seite 9 des verlinkten Dokuments für eine detaillierte Beschreibung sowie Verweise auf Intercoder-Zuverlässigkeitsstandards in der statistischen Literatur zur Inhaltsanalyse):
Bestätigen Sie, dass alle Codierer, dh Leser des Inhalts, nach denselben qualitativen Definitionen geschult wurden. In Joels Analyse bedeutete dies, dass jeder genau wusste, wie das Projekt "freundlich" und "unfreundlich" definierte.
Vergewissern Sie sich, dass alle Codierer diese Regeln zuverlässig interpretiert haben, dh, wir haben eine Stichprobe gezogen, die Teilmenge analysiert und dann statistisch gezeigt, dass unsere paarweisen Korrelationen bei qualitativen Bewertungen ziemlich ähnlich waren.
Zuverlässigkeitstests taten weh, weil wir es drei- oder viermal machen mussten. Bis -1- gesperrt war und -2- genügend paarweise Korrelationen aufwies, waren unsere Ergebnisse für die vollständige Analyse verdächtig. Sie konnten nicht als gültig oder ungültig nachgewiesen werden. Vor allem mussten wir vor dem endgültigen Probensatz Pilotversuche zur Zuverlässigkeit durchführen.
Meine Frage lautet: Joels statistische Analyse enthielt keinen Pilotzuverlässigkeitstest und ermittelte keine operativen Definitionen für "Freundlichkeit". Waren die endgültigen Daten verlässlich genug, um etwas über die statistische Validität seiner Ergebnisse zu sagen?
Betrachten Sie diesen Leitfaden für den Wert der Intercoder-Zuverlässigkeit und der konsistenten Betriebsdefinitionen. In derselben Quelle finden Sie Informationen zu Zuverlässigkeitstests für Piloten (Punkt 5 in der Liste).
Gemäß dem Vorschlag von Andy W. in seiner Antwort versuche ich , mithilfe dieser Befehlsreihe in R (aktualisiert, wenn ich neue Statistiken berechne) eine Reihe von Zuverlässigkeitsstatistiken für den hier verfügbaren Datensatz zu berechnen.
Beschreibende Statistiken finden Sie hier
Prozentuale Übereinstimmung (mit Toleranz = 0): 0,0143
Prozentuale Übereinstimmung (mit Toleranz = 1): 11.8
Krippendorffs Alpha: 0,1529467
In einer anderen Frage habe ich auch versucht, ein Item-Response-Modell für diese Daten zu erstellen .
quelle
Antworten:
Diese Übereinstimmungsmaße besagen, dass es praktisch keine kategoriale Übereinstimmung gibt - jeder Kodierer hat seinen eigenen internen Grenzwert, um Kommentare als "freundlich" oder "unfreundlich" zu beurteilen.
Wenn wir davon ausgehen, dass die drei Kategorien geordnet sind, dh unfreundlich <neutral <freundlich, können wir auch die Korrelation innerhalb der Klasse als ein weiteres Maß für die Übereinstimmung berechnen. Auf einer Zufallsstichprobe von 1000 Kommentaren gibt es einen ICC (2,1) von 0,28 und einen ICC (2, k) von 0,88. Das heißt, wenn Sie nur einen der 20 Bewerter nehmen würden, wären die Ergebnisse sehr unzuverlässig (.28), wenn Sie den Durchschnitt von 20 Bewertern nehmen würden, wären die Ergebnisse zuverlässig (.88). Bei unterschiedlichen Kombinationen von drei zufälligen Bewertern liegt die gemittelte Zuverlässigkeit zwischen 0,50 und 0,60, was immer noch als zu niedrig beurteilt werden würde.
Die durchschnittliche bivariate Korrelation zwischen zwei Codierern beträgt 0,34, was ebenfalls ziemlich niedrig ist.
Wenn diese Übereinstimmungsmaße als Qualitätsmaß der Codierer angesehen werden (die eigentlich eine gute Übereinstimmung aufweisen sollten), lautet die Antwort: Sie sind keine guten Codierer und sollten besser geschult werden. Wenn dies als ein Maß dafür angesehen wird, "wie gut spontane Übereinstimmung zwischen zufälligen Personen ist", lautet die Antwort auch: nicht sehr hoch. Als Benchmark liegt die durchschnittliche Korrelation für Bewertungen der körperlichen Attraktivität zwischen 0,47 und 0,71 [1].
[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. & Smoot, M. (2000). Maxims oder Mythen der Schönheit? Eine metaanalytische und theoretische Überprüfung. Psychological Bulletin, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390
quelle
Die Zuverlässigkeit der Ergebnisse wird häufig im Sinne der klassischen Testtheorie interpretiert . Hier hat man eine wahre Punktzahl,
X
aber was Sie bei einem bestimmten Ergebnis beobachten, ist nicht nur die wahre Punktzahl, sondern die wahre Punktzahl mit einem gewissen Fehler (dhObserved = X + error
). Theoretisch kann man dann durch Ergreifen mehrerer beobachteter Messungen desselben zugrunde liegenden Tests (wobei einige Annahmen über die Verteilung der Fehler dieser Tests getroffen werden) die nicht beobachtete wahre Bewertung messen.Beachten Sie in diesem Zusammenhang, dass Sie davon ausgehen müssen, dass Ihre mehreren beobachteten Kennzahlen denselben zugrunde liegenden Test messen. Eine unzureichende Zuverlässigkeit der Prüflinge wird dann häufig als Beweis dafür herangezogen, dass die beobachteten Maßnahmen nicht denselben zugrunde liegenden Test messen. Dies ist jedoch nur eine Konvention des Fachgebiets. Eine schlechte Zuverlässigkeit an und für sich beweist nicht (in jedem statistischen Sinne), dass die Elemente nicht dasselbe Konstrukt messen. Man könnte also argumentieren, dass man durch Ergreifen vieler beobachteter Maßnahmen, selbst bei sehr unzuverlässigen Tests, ein zuverlässiges Maß für die wahre Punktzahl erhalten könnte.
Es sollte auch erwähnt werden, dass die klassische Testtheorie nicht unbedingt der einzige Weg ist, solche Tests zu interpretieren, und viele Wissenschaftler würden argumentieren, dass das Konzept der latenten Variablen und der Item-Response-Theorie immer angemessener ist als die klassische Testtheorie.
Eine ähnliche implizite Annahme in der klassischen Testtheorie ist, wenn die Leute sagen, die Zuverlässigkeit sei zu hoch. Es sagt nichts über die Gültigkeit aus, ob bestimmte Elemente einen zugrunde liegenden Test messen, aber wenn die Zuverlässigkeit zu hoch ist, nehmen die Forscher an, dass Fehler zwischen den Tests nicht unabhängig sind.
Ich bin mir nicht ganz sicher, warum Sie so vehement sind, wenn Sie nicht einsteigen und die Zuverlässigkeit selbst berechnen. Warum konnte man dies nicht tun und die Analyse anschließend im Lichte dieser zusätzlichen Informationen interpretieren?
quelle
before the final analysis
, daher bin ich mir nicht ganz sicher, woher dieser Begriff kommt.