Einführung
Ich habe eine kategoriale Kontingenztabelle mit vielen Zeilen und einem binären Ergebnis, das ich zähle:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Dies ist alles in Ordnung, da jedoch beide Kategorien (Name und Ergebnis) unabhängig voneinander sind, dh Person A kann nicht gleichzeitig Person B sein, und Ergebnis1 tritt nicht gleichzeitig mit Ergebnis2 auf.
Probleme hinzufügen
Jetzt möchte ich meinen Datensatz jedoch bereichern, indem ich den Agenten Klassen zuweise. Die Klassen sind nicht exklusiv und einige können sogar voneinander abhängen. Für das obige Beispiel mit vier Klassen C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Ich möchte jetzt herausfinden, ob es eine Abhängigkeit einer Klasse vom Ergebnis des Experiments gibt.
Mögliche (naive) Lösung
Meine Idee war zunächst, basierend auf der Klasse zu aggregieren und dann die Unabhängigkeitstests durchzuführen, damit die Tabelle folgendermaßen aussieht:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Dann kam mir jedoch der Gedanke, dass ich mit dieser Methode den Einfluss der anderen Klassen maskiere, weil ich anhand der Klasse isoliere, was zu schlechten Ergebnissen führen kann, wenn einige der Klassen stark voneinander abhängen.
Außerdem enthält mein realer Datensatz ungefähr 200 Agenten und 30 Kategorien, sodass meine Methode viele Ergebnisse liefern würde, die ich jetzt interpretieren kann.
Die Frage
In diesem Sinne wende ich mich an Sie: Welche statistische Methode ist anwendbar, um die (In-) Abhängigkeit von einem Datensatz mit einer kategorialen nicht exklusiven Variablen und einer binären kategorialen Variablen zu testen?
Ich möchte ein Ergebnis nach dem Motto "Kategorie 1 ist der stärkste Prädiktor für das Ergebnis ( p <0,01). Es korreliert auch mit Kategorie 2" erhalten.
Lösungen mit Python oder R sind mehr als willkommen, aber ich brauche keinen Code. Ich muss wissen, welche Methode anwendbar ist.
quelle
Antworten:
Ich schlage vor, die Poisson-Regression für Ergebnis1 und Ergebnis2 (Antwortvariablen) getrennt durchzuführen, wobei Klasse1, Klasse2, Klasse3 oder Klasse4 als erklärende Variablen dienen.
Sie sagen, dass die Klassen nicht exklusiv sind, aber dies ist kein Problem, wenn Sie die Interaktion zwischen den Klassen berücksichtigen. Weitere Informationen zur Interaktion finden Sie im folgenden Beitrag: Spezifikation und Interpretation von Interaktionstermen mit glm ()
Wie man mit der Abhängigkeit zwischen den Klassen umgeht (im Hinblick auf eine Poisson-Regression), sehe ich keinen Ausweg. Sie können die Bedeutung der Assoziation mit einem Chi-Quadrat-Test und die Stärke der Assoziation mit Cramers V messen . Ob dies Ihre Frage beantwortet, weiß ich nicht.
quelle