Wie teste ich die Unabhängigkeit mit nicht exklusiven kategorialen Variablen?

Einführung

Ich habe eine kategoriale Kontingenztabelle mit vielen Zeilen und einem binären Ergebnis, das ich zähle:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

Dies ist alles in Ordnung, da jedoch beide Kategorien (Name und Ergebnis) unabhängig voneinander sind, dh Person A kann nicht gleichzeitig Person B sein, und Ergebnis1 tritt nicht gleichzeitig mit Ergebnis2 auf.

Probleme hinzufügen

Jetzt möchte ich meinen Datensatz jedoch bereichern, indem ich den Agenten Klassen zuweise. Die Klassen sind nicht exklusiv und einige können sogar voneinander abhängen. Für das obige Beispiel mit vier Klassen C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Ich möchte jetzt herausfinden, ob es eine Abhängigkeit einer Klasse vom Ergebnis des Experiments gibt.

Mögliche (naive) Lösung

Meine Idee war zunächst, basierend auf der Klasse zu aggregieren und dann die Unabhängigkeitstests durchzuführen, damit die Tabelle folgendermaßen aussieht:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

Dann kam mir jedoch der Gedanke, dass ich mit dieser Methode den Einfluss der anderen Klassen maskiere, weil ich anhand der Klasse isoliere, was zu schlechten Ergebnissen führen kann, wenn einige der Klassen stark voneinander abhängen.

Außerdem enthält mein realer Datensatz ungefähr 200 Agenten und 30 Kategorien, sodass meine Methode viele Ergebnisse liefern würde, die ich jetzt interpretieren kann.

Die Frage

In diesem Sinne wende ich mich an Sie: Welche statistische Methode ist anwendbar, um die (In-) Abhängigkeit von einem Datensatz mit einer kategorialen nicht exklusiven Variablen und einer binären kategorialen Variablen zu testen?

Ich möchte ein Ergebnis nach dem Motto "Kategorie 1 ist der stärkste Prädiktor für das Ergebnis ( p <0,01). Es korreliert auch mit Kategorie 2" erhalten.

Lösungen mit Python oder R sind mehr als willkommen, aber ich brauche keinen Code. Ich muss wissen, welche Methode anwendbar ist.

categorical-data non-independent predictor tschoppi
quelle

Ergebnis1 und Ergebnis2 sind ebenfalls unabhängig? Sie sagen nur, dass sie nicht gleichzeitig auftreten. Ich stelle mir vor, Sie könnten hier eine Poisson-Regression durchführen, wenn Sie die Abhängigkeit mehrerer Variablen vom Ergebnis messen möchten. Dies kann jedoch ein Problem sein, wenn Ihre erklärenden Variablen sehr abhängig sind.

Erosennin

Ja, Ergebnis1 und Ergebnis2 sind unabhängig.

Tschoppi

Wenn "Ergebnis1 nicht gleichzeitig mit Ergebnis2 auftritt", sind sie sicherlich nicht unabhängig. Es würde helfen, den Kontext zu erklären - genau welche Beobachtungen machen Sie für jede Person?

Scortchi - Monica wieder einsetzen

@ Scortchi Könnten Sie diese Unabhängigkeitserklärung näher erläutern? Könnten sie nicht unabhängig sein, weil sie gleichzeitig auftreten?

Erosennin

@tschoppi Sie schreiben: "Jetzt möchte ich diesen Personen (von Hand) Klassen zuweisen und dann testen, ob die Ausgabe von einer der Klassen abhängt. Mein Problem ist, dass die Klassen zwar nicht unbedingt voneinander abhängig sind, aber nicht exklusiv. Die Klassen können jedoch voneinander abhängig sein. " Die Tatsache, dass sie exklusiv sind, können Sie lösen, indem Sie sie bei der Angabe der Poisson-Regression miteinander interagieren lassen. Wenn ich hier nicht völlig aus der Bahn bin, missverstehe ich deine Daten und deine Frage

Erosennin

Antworten:

Ich schlage vor, die Poisson-Regression für Ergebnis1 und Ergebnis2 (Antwortvariablen) getrennt durchzuführen, wobei Klasse1, Klasse2, Klasse3 oder Klasse4 als erklärende Variablen dienen.

Sie sagen, dass die Klassen nicht exklusiv sind, aber dies ist kein Problem, wenn Sie die Interaktion zwischen den Klassen berücksichtigen. Weitere Informationen zur Interaktion finden Sie im folgenden Beitrag: Spezifikation und Interpretation von Interaktionstermen mit glm ()

Wie man mit der Abhängigkeit zwischen den Klassen umgeht (im Hinblick auf eine Poisson-Regression), sehe ich keinen Ausweg. Sie können die Bedeutung der Assoziation mit einem Chi-Quadrat-Test und die Stärke der Assoziation mit Cramers V messen . Ob dies Ihre Frage beantwortet, weiß ich nicht.

Erosennin
quelle

Ich vermute, (1) das Interesse könnte sich auf die Anzahl von Ergebnis 1 im Verhältnis zu Ergebnis 2 konzentrieren und (2) das Ignorieren der Person / Agent-Ebene kann unklug sein.

Scortchi - Monica wieder einsetzen

Wird (1) nicht mit einem Vergleich der Koeffizienten (Ergebnis der Regression) Ergebnis1 und Ergebnis2 beantwortet?

Erosennin

(1) Ja; Aber genau, wie man sie vergleicht, scheint ein wichtiger Teil der Frage zu sein. (Ein praktischer Ansatz wäre, den 'Ergebnistyp' als Prädiktor für 'Anzahl' zu behandeln und alle seine Interaktionen mit 'Klassen'-Variablen einzubeziehen. Sie hätten ein größeres Modell, das Ihre zwei getrennten Regressionen umfasst - es ist ein logarithmisch lineares Modell für eine mehrdimensionale Kontingenztabelle - aber mit den Unterschieden zwischen ihnen, die leicht parametrisiert werden können. Einige gehen möglicherweise noch weiter und verwandeln sie in ein logistisches Regressionsmodell, indem sie herauskonditionieren, was sie als störende Parameter betrachten.)

Scortchi - Reinstate Monica

(2) Der zweite Punkt ist wichtiger. Tom & Dick rauchen über eine Woche 20 & 35 Zigaretten; Harry & Pete über eine neue Anti-Raucher-Behandlung, 30 & 280. Bewerten wir die Wirksamkeit der Behandlung durch Vergleich der Gesamtzahl. Zigaretten, die von Leuten geraucht wurden, die sie nicht benutzen, 55, bis zur Gesamtzahl. von Leuten geraucht, die es benutzen, 310?

Scortchi

(1) Siehe Welchen Test kann ich verwenden, um Steigungen von zwei oder mehr Regressionsmodellen zu vergleichen? für die allgemeine Idee eines "großen Modells" und dann logarithmische lineare Regression vs. logistische Regression logarithmische & Germán Rodríguez für logarithmische lineare Modelle . (2) Ein paarweiser Vergleich von vorher nachher wäre nützlich, ich wollte das nicht durch mein Beispiel vorschlagen (sorry) - eher ein hierarchisches Modell.

Scortchi - Monica wieder einsetzen