Ist Joel Spolskys "Hunting of the Snark" eine nachträgliche statistische Inhaltsanalyse?

25

Wenn Sie in letzter Zeit die Community-Bulletins gelesen haben, haben Sie wahrscheinlich The Hunting of the Snark gesehen, einen Beitrag auf dem offiziellen StackExchange-Blog von Joel Spolsky, dem CEO des StackExchange-Netzwerks. Er diskutiert eine statistische Analyse, die an einer Stichprobe von SE-Kommentaren durchgeführt wurde, um deren "Freundlichkeit" aus der Perspektive eines externen Benutzers zu bewerten. Die Kommentare wurden von StackOverflow nach dem Zufallsprinzip ausgewählt und die Inhaltsanalysten waren Mitglieder der Mechanical Turk-Community von Amazon, einem Markt für Arbeit , der Unternehmen mit Arbeitnehmern verbindet, die kleine, kurze Aufgaben zu erschwinglichen Gebühren erledigen.

Vor nicht allzu langer Zeit war ich Diplom-Politikwissenschaftlerin und nahm unter anderem an einer Lehrveranstaltung zur Analyse statistischer Inhalte teil . Das abschließende Projekt der Klasse, eigentlich ihr gesamter Zweck, bestand darin, eine detaillierte Analyse der Kriegsberichte der New York Times durchzuführen , um zu testen, ob viele Annahmen, die Amerikaner über die Berichterstattung in Kriegen machen, zutreffend sind oder nicht (Spoiler: Beweise deuten darauf hin, dass sie zutreffen) nicht). Das Projekt war riesig und hat ziemlich viel Spaß gemacht, aber der mit Abstand schmerzhafteste Abschnitt war die "Schulungs- und Zuverlässigkeitstestphase", die stattfand, bevor wir eine vollständige Analyse durchführen konnten. Es hatte zwei Zwecke (siehe Seite 9 des verlinkten Dokuments für eine detaillierte Beschreibung sowie Verweise auf Intercoder-Zuverlässigkeitsstandards in der statistischen Literatur zur Inhaltsanalyse):

  1. Bestätigen Sie, dass alle Codierer, dh Leser des Inhalts, nach denselben qualitativen Definitionen geschult wurden. In Joels Analyse bedeutete dies, dass jeder genau wusste, wie das Projekt "freundlich" und "unfreundlich" definierte.

  2. Vergewissern Sie sich, dass alle Codierer diese Regeln zuverlässig interpretiert haben, dh, wir haben eine Stichprobe gezogen, die Teilmenge analysiert und dann statistisch gezeigt, dass unsere paarweisen Korrelationen bei qualitativen Bewertungen ziemlich ähnlich waren.

Zuverlässigkeitstests taten weh, weil wir es drei- oder viermal machen mussten. Bis -1- gesperrt war und -2- genügend paarweise Korrelationen aufwies, waren unsere Ergebnisse für die vollständige Analyse verdächtig. Sie konnten nicht als gültig oder ungültig nachgewiesen werden. Vor allem mussten wir vor dem endgültigen Probensatz Pilotversuche zur Zuverlässigkeit durchführen.

Meine Frage lautet: Joels statistische Analyse enthielt keinen Pilotzuverlässigkeitstest und ermittelte keine operativen Definitionen für "Freundlichkeit". Waren die endgültigen Daten verlässlich genug, um etwas über die statistische Validität seiner Ergebnisse zu sagen?

Betrachten Sie diesen Leitfaden für den Wert der Intercoder-Zuverlässigkeit und der konsistenten Betriebsdefinitionen. In derselben Quelle finden Sie Informationen zu Zuverlässigkeitstests für Piloten (Punkt 5 in der Liste).

Gemäß dem Vorschlag von Andy W. in seiner Antwort versuche ich , mithilfe dieser Befehlsreihe in R (aktualisiert, wenn ich neue Statistiken berechne) eine Reihe von Zuverlässigkeitsstatistiken für den hier verfügbaren Datensatz zu berechnen.

Beschreibende Statistiken finden Sie hier

Prozentuale Übereinstimmung (mit Toleranz = 0): 0,0143

Prozentuale Übereinstimmung (mit Toleranz = 1): 11.8

Krippendorffs Alpha: 0,1529467

In einer anderen Frage habe ich auch versucht, ein Item-Response-Modell für diese Daten zu erstellen .

Christopher
quelle
1
Sie haben die Codierungsdaten öffentlich veröffentlicht, damit man die Zuverlässigkeit der Codierer selbst beurteilen kann, wenn man möchte.
Andy W
3
Re: # 1 - Es sollte beachtet werden , dass dies nicht so sehr eine Übung auf , wenn die Kommentare waren freundlich oder nicht, sondern eher eine Übung auf , wenn die Kommentare wurden wahrgenommen als freundlich oder nicht an einen externen Benutzer.
Rachel
3
@ Rachel Ich denke nicht, dass das richtig ist. Wenn sie messen würden, wie Außenstehende Kommentare zu SO wahrnehmen, hätten sie einen größeren Stichprobensatz als 20 Personen benötigt.
Christopher
2
Es ist der Unterschied zwischen der Schlussfolgerung, wie Außenstehende die Kommentare wahrnehmen, und der Schlussfolgerung, was die Kommentare selbst angeht. Im ersten Fall bräuchten Sie eine viel größere Stichprobe von Leuten, und die Schlussfolgerung wäre: "Außenstehende halten 2,3% der SO-Kommentare für unfreundlich." Im zweiten ist es "2,3% der SO-Kommentare sind unfreundlich." Dies sind unterschiedliche Schlussfolgerungen, und ich denke, dass die zweite möglicherweise nicht möglich ist, da wir nicht demonstrieren können, dass die Programmierer die Kommentare ohne einen Zuverlässigkeitstest auf ähnliche Weise bewerten.
Christopher
2
@Christopher Freundlichkeit ist allerdings sehr subjektiv. Je nachdem, wen Sie fragen, kann derselbe Kommentar sowohl als freundlich als auch als unfreundlich angesehen werden. Aus diesem Grund halte ich es für wichtiger, den Standpunkt einer großen Anzahl zufälliger Benutzer zu vertreten, als jemanden, der genau den gleichen Standpunkt wie Sie hat.
Rachel

Antworten:

6

Prozentuale Übereinstimmung (mit Toleranz = 0): 0,0143

Prozentuale Übereinstimmung (mit Toleranz = 1): 11.8

Krippendorffs Alpha: 0,1529467

Diese Übereinstimmungsmaße besagen, dass es praktisch keine kategoriale Übereinstimmung gibt - jeder Kodierer hat seinen eigenen internen Grenzwert, um Kommentare als "freundlich" oder "unfreundlich" zu beurteilen.

Wenn wir davon ausgehen, dass die drei Kategorien geordnet sind, dh unfreundlich <neutral <freundlich, können wir auch die Korrelation innerhalb der Klasse als ein weiteres Maß für die Übereinstimmung berechnen. Auf einer Zufallsstichprobe von 1000 Kommentaren gibt es einen ICC (2,1) von 0,28 und einen ICC (2, k) von 0,88. Das heißt, wenn Sie nur einen der 20 Bewerter nehmen würden, wären die Ergebnisse sehr unzuverlässig (.28), wenn Sie den Durchschnitt von 20 Bewertern nehmen würden, wären die Ergebnisse zuverlässig (.88). Bei unterschiedlichen Kombinationen von drei zufälligen Bewertern liegt die gemittelte Zuverlässigkeit zwischen 0,50 und 0,60, was immer noch als zu niedrig beurteilt werden würde.

Die durchschnittliche bivariate Korrelation zwischen zwei Codierern beträgt 0,34, was ebenfalls ziemlich niedrig ist.

Wenn diese Übereinstimmungsmaße als Qualitätsmaß der Codierer angesehen werden (die eigentlich eine gute Übereinstimmung aufweisen sollten), lautet die Antwort: Sie sind keine guten Codierer und sollten besser geschult werden. Wenn dies als ein Maß dafür angesehen wird, "wie gut spontane Übereinstimmung zwischen zufälligen Personen ist", lautet die Antwort auch: nicht sehr hoch. Als Benchmark liegt die durchschnittliche Korrelation für Bewertungen der körperlichen Attraktivität zwischen 0,47 und 0,71 [1].

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M. & Smoot, M. (2000). Maxims oder Mythen der Schönheit? Eine metaanalytische und theoretische Überprüfung. Psychological Bulletin, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390

Felix S
quelle
7

Die Zuverlässigkeit der Ergebnisse wird häufig im Sinne der klassischen Testtheorie interpretiert . Hier hat man eine wahre Punktzahl, Xaber was Sie bei einem bestimmten Ergebnis beobachten, ist nicht nur die wahre Punktzahl, sondern die wahre Punktzahl mit einem gewissen Fehler (dh Observed = X + error). Theoretisch kann man dann durch Ergreifen mehrerer beobachteter Messungen desselben zugrunde liegenden Tests (wobei einige Annahmen über die Verteilung der Fehler dieser Tests getroffen werden) die nicht beobachtete wahre Bewertung messen.

Beachten Sie in diesem Zusammenhang, dass Sie davon ausgehen müssen, dass Ihre mehreren beobachteten Kennzahlen denselben zugrunde liegenden Test messen. Eine unzureichende Zuverlässigkeit der Prüflinge wird dann häufig als Beweis dafür herangezogen, dass die beobachteten Maßnahmen nicht denselben zugrunde liegenden Test messen. Dies ist jedoch nur eine Konvention des Fachgebiets. Eine schlechte Zuverlässigkeit an und für sich beweist nicht (in jedem statistischen Sinne), dass die Elemente nicht dasselbe Konstrukt messen. Man könnte also argumentieren, dass man durch Ergreifen vieler beobachteter Maßnahmen, selbst bei sehr unzuverlässigen Tests, ein zuverlässiges Maß für die wahre Punktzahl erhalten könnte.

Es sollte auch erwähnt werden, dass die klassische Testtheorie nicht unbedingt der einzige Weg ist, solche Tests zu interpretieren, und viele Wissenschaftler würden argumentieren, dass das Konzept der latenten Variablen und der Item-Response-Theorie immer angemessener ist als die klassische Testtheorie.


Eine ähnliche implizite Annahme in der klassischen Testtheorie ist, wenn die Leute sagen, die Zuverlässigkeit sei zu hoch. Es sagt nichts über die Gültigkeit aus, ob bestimmte Elemente einen zugrunde liegenden Test messen, aber wenn die Zuverlässigkeit zu hoch ist, nehmen die Forscher an, dass Fehler zwischen den Tests nicht unabhängig sind.

Ich bin mir nicht ganz sicher, warum Sie so vehement sind, wenn Sie nicht einsteigen und die Zuverlässigkeit selbst berechnen. Warum konnte man dies nicht tun und die Analyse anschließend im Lichte dieser zusätzlichen Informationen interpretieren?

Andy W
quelle
Lassen Sie mich zunächst darauf hinweisen, dass ich aus einem guten Grund kein Doktorand mehr bin: Es war nicht ganz meine Stärke. Ich könnte die Methodik falsch einschätzen. Trotzdem denke ich, dass Sie und ich möglicherweise über verschiedene Zuverlässigkeitsmaße sprechen, oder zumindest gibt es Untersuchungen, die darauf hindeuten, die Zuverlässigkeit von Intercodern zu messen, bevor die endgültige Analyse auf ihre Gültigkeit hin durchgeführt wird. Ich habe die Frage so bearbeitet, dass sie eine Quelle enthält, die ich im Internet gefunden habe und die deutlich mehr Nachforschungen zu diesem Thema enthält.
Christopher
Es ist ein anderer Kontext (Zuverlässigkeit dichotomer Testobjekte anstelle eines kontinuierlichen Ergebnisses), aber die Logik ist funktional dieselbe. Daher erwähnte ich kein bestimmtes Maß an Zuverlässigkeit (es gibt viele). Ihr Zitat lässt nichts vermuten before the final analysis, daher bin ich mir nicht ganz sicher, woher dieser Begriff kommt.
Andy W
Ah ha. Sie haben recht, es ist nicht ganz eine Voraussetzung. Wenn ich weiter in den von mir geposteten Link reinschaue, sieht es so aus, als würden diese Pilotversuche als methodische Best Practice angesehen (Suche nach Pilotversuchen darin).
Christopher
Ich habe meine Frage geändert, um die neuen Informationen aufzunehmen. Vielen Dank für die Hilfe bei der Korrektur meines Fehlers.
Christopher
2
Eine andere Frage ist offen.
Christopher