Ich hoffe, das ist nicht viel zu einfach oder überflüssig. Ich habe mich nach Rat umgesehen, bin mir aber bisher noch nicht sicher, wie ich vorgehen soll.
Meine Daten bestehen aus Zählungen einer bestimmten Struktur, die in Gesprächen zwischen Gesprächspartnerpaaren verwendet werden. Die Hypothese, die ich testen möchte, lautet wie folgt: Eine häufigere Verwendung dieser Struktur durch einen Sprecher erhöht tendenziell die Häufigkeit der Struktur durch den anderen Sprecher (dh dies könnte ein Hinweis auf einen Priming-Effekt sein).
Ich habe also nur zwei Vektoren, die Anzahl für Sprecher A und die Anzahl für Sprecher B sind die Spalten, und wenn sie in einer Reihe stehen, repräsentiert jede Zeile eine bestimmte Konversation wie folgt:
AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1
Es gibt ungefähr 420 Konversationen (Zeilen). Diese Daten enthalten viele Nullen.
Was wäre der beste Weg, um diese Daten zu analysieren? Ich benutze R, wenn das einen Unterschied macht.
Hier ist eine grafische Darstellung der Frequenzen (Zählungen). Die x-Achse ist die Anzahl der Verwendungen durch Sprecher A, die y-Achse die Anzahl der Verwendungen durch Sprecher B. Die Unterscheidung zwischen Sprechern bedeutet nur, dass Sprecher A zuerst sprach, und es gibt keinen besonderen Grund, warum sie dies taten. Ansonsten ist die Unterscheidung zwischen Sprecher A und Sprecher B grundsätzlich bedeutungslos:
Gültiges XHTML http://phonematic.com/convplot.jpg
Und dies ist die Häufigkeit im Verhältnis zur Anzahl der Sätze, die von jedem Sprecher in jedem Gespräch gesprochen werden. ::
Gültiges XHTML http://phonematic.com/rs_plot.jpg
(Ich sollte erwähnen, dass ich Gespräche ohne Treffer geführt habe, dh {0,0}.)
quelle
Antworten:
Log-lineare Modelle sind möglicherweise eine weitere Option, wenn Sie Ihre bidirektionale Datenstruktur untersuchen möchten.
Wenn Sie davon ausgehen, dass die beiden Stichproben übereinstimmen (dh es besteht eine gewisse Abhängigkeit zwischen den beiden Reihen von Positionen), und Sie berücksichtigen, dass es sich bei den Daten tatsächlich um Zählungen handelt, die als Bewertungen oder geordnete Antworten betrachtet werden können (wie von @caracal vorgeschlagen) ), dann können Sie sich auch Randmodelle für Matched-Pair-Modelle ansehen, bei denen normalerweise eine quadratische Kontingenztabelle analysiert wird. Es muss nicht unbedingt der Fall sein, dass Sie eine solche quadratische Tabelle erhalten, aber wir können auch eine Obergrenze für die Anzahl der z. B. passiven Sätze festlegen. Wie auch immer, Modelle für übereinstimmende Paare werden in Kapitel 10 von Agresti, Kategoriale Datenanalyse, gut erklärt . Relevante Modelle für Ordnungskategorien in quadratischen Tabellen testen auf Quasi-Symmetrie(Der Unterschied in der Wirkung einer Kategorie von einem Fall zum anderen folgt einem linearen Trend in den Kategoriewerten), bedingte Symmetrie ( oder , ) und quasi-einheitliche Assoziation (linear-durch-lineare Assoziation außerhalb der Hauptdiagonale, was im Fall von Scores mit gleichem Intervall eine einheitliche lokale Assoziation bedeutet). Die ordinale Quasi-Symmetrie (OQS) ist ein Sonderfall des linearen Logit-Modells und kann mit einem einfacheren Modell verglichen werden, bei dem bei einem LR-Test nur eine marginale Homogenität gilt, da ordinale Quasi-Symmetrie + marginale Homogenität Symmetrie.πab<πab πab>πab ∀a,b =
Nach Agrestis Notation (S. 429) betrachten wir geordnete Scores für die Variable (in Zeilen) und die Variable (in Spalten); oder bezeichnet eine beliebige Zeile oder Spalte. Das OQS-Modell lautet wie folgt: logarithmisch lineares Modell:u1≤⋯≤uI X Y a b
wobei für alle . Im Vergleich zum üblichen QS-Modell für das , würde die Unabhängigkeit zwischen den beiden Variablen bedeuten Im OQS-Modell wir ( die Idee eines linearen Trends eingeführt wird). Die äquivalente Logit-Darstellung lautet für .λab=λba a<b logμab=λ+λXa+λYb+λab λab=0 λYb−λXb=βub log(πab/πba)=β(ub−ua) a≤b
Wenn , haben wir Symmetrie als Sonderfall dieses Modells. Wenn , dann haben wir stochastisch geordnete Ränder, dh bedeutet, dass der Spaltenmittelwert im Vergleich zum Zeilenmittelwert höher ist (und je größer , desto größer sind die Unterschiede zwischen den beiden gemeinsamen Wahrscheinlichkeitsverteilungen und sind, was sich in den Unterschieden zwischen Zeilen- und Spaltenrandverteilungen widerspiegelt. Ein Test von entspricht einem Test der marginalen Homogenität. Die Interpretation des geschätzten ist einfach: Die geschätzte Wahrscheinlichkeit, dass die Variable istβ ≠ 0 β > 0 | β | π a b π b ein β = 0 β X x Y exp ( β x ) ββ=0 β≠0 β>0 |β| πab πba β=0 β X x Einheiten, die positiver als die Punktzahl auf sind mal die umgekehrte Wahrscheinlichkeit. In Ihrem speziellen Fall bedeutet dies, dass möglicherweise die Quantifizierung des Einflusses ermöglicht, den ein bestimmter Sprecher auf den anderen ausübt.Y exp(β^x) β^
Zu beachten ist, dass Laura Thompson den gesamten R-Code in ihrem S-Handbuch zur Begleitung der kategorialen Datenanalyse von Agresti zur Verfügung stellte .
Im Folgenden stelle ich einen Beispiel-R-Code zur Verfügung, damit Sie mit Ihren eigenen Daten spielen können. Versuchen wir also zunächst, einige Daten zu generieren:
Optisch sieht die Kreuzklassifizierung folgendermaßen aus:
Jetzt können wir das OQS-Modell anpassen. Im Gegensatz zu Laura Thompson, die dieβ
glm()
Basisfunktion und eine benutzerdefinierte Designmatrix für die Symmetrie verwendete, können wir uns auf das gnm- Paket verlassen. Wir müssen jedoch einen Vektor für numerische Scores hinzufügen, um im obigen Modell zu schätzen .Hier haben wir , und somit ist die Wahrscheinlichkeit, dass Sprecher B 4 Punkte erzielt, wenn Sprecher A 3 Punkte erzielt, fache der Wahrscheinlichkeit, dass Sprecher B eine Punktzahl von 3 hat, während Sprecher A eine Punktzahl hat von 4.exp(0,123)=1,13β^=0.123 exp(0.123)=1.13
Ich bin kürzlich auf das catspec R-Paket gestoßen , das ähnliche Einrichtungen zu bieten scheint, aber ich habe es nicht ausprobiert. Es gab ein gutes Tutorial bei UseR! 2009 über all diese Dinge: Einführung in generalisierte nichtlineare Modelle in R , aber siehe auch die beigefügte Vignette, Generalisierte nichtlineare Modelle in R: Ein Überblick über das gnm-Paket .
Wenn Sie die Idee mit realen Daten erfassen möchten, enthält das vcdExtra- Paket von Michael Friendly viele Beispiele mit realen Datensätzen . Über das OQS-Modell verwendete Agresti Daten zum vorehelichen und außerehelichen Geschlecht (Tabelle 10.5, S. 421). Die Ergebnisse werden in § 10.4.7 (S. 430) diskutiert, und wurde auf -2,86 geschätzt. Der folgende Code ermöglicht (teilweise aus Thompsons Lehrbuch entnommen) die Reproduktion dieser Ergebnisse. Wir müssten die Faktorstufen neu bestimmen, um die gleiche Basislinie wie bei Agresti festzulegen.β^
quelle
Sie scheinen kategoriale Daten geordnet zu haben, daher schlage ich einen linearen Test vor, wie er von Agresti (2007, S. 229 ff.) Beschrieben wurde. Die Funktion
lbl_test()
des Paketscoin
implementiert es in R.Agresti, A. (2007). Einführung in die kategoriale Datenanalyse. 2nd Ed. Hoboken, New Jersey: John Wiley & Sons. Hoboken, NJ: Wiley.
quelle
Ich würde vielleicht mit einer Rangkorrelationsanalyse beginnen .
Das Problem ist, dass Sie möglicherweise sehr geringe Korrelationen haben, da die Effekte, die Sie erfassen möchten, gering sind.
Sowohl Kendall- als auch Spearman-Korrelationskoeffizienten sind in R in implementiert
quelle