Ich unterrichte einen Statistik-Grundkurs und werde heute den Chi-Quadrat-Test der Unabhängigkeit für zwei Kategorien und den Test der Homogenität behandeln. Diese beiden Szenarien unterscheiden sich konzeptionell, können jedoch dieselbe Teststatistik und -verteilung verwenden. Bei einem Homogenitätstest wird angenommen, dass Grenzsummen für eine der Kategorien Teil des Entwurfs selbst sind - sie repräsentieren die Anzahl der für jede Versuchsgruppe ausgewählten Probanden. Da sich der Chi-Quadrat-Test jedoch um die Konditionierung aller Grenzwerte dreht, hat die Unterscheidung zwischen Homogenitätstests und Unabhängigkeitstests mit kategorialen Daten keine mathematischen Konsequenzen - zumindest keine, wenn dieser Test verwendet wird.
Meine Frage lautet wie folgt: Gibt es eine Schule des statistischen Denkens oder statistischen Ansatzes, die unterschiedliche Analysen liefern würde, je nachdem, ob wir die Unabhängigkeit testen (wobei alle Ränder Randvariablen sind) oder einen Homogenitätstest (bei dem eine Gruppe von Rändern vorhanden ist) durch das Design festgelegt)?
Sagen wir im kontinuierlichen Fall, wo wir am selben Thema beobachten und auf Unabhängigkeit testen oder in verschiedenen Populationen beobachten und testen, ob sie aus derselben Verteilung stammen, die Methode ist unterschiedlich (Korrelation) Analyse gegen T-Test). Was wäre, wenn die kategorialen Daten aus diskretisierten kontinuierlichen Variablen stammen würden? Sollten die Tests der Unabhängigkeit und Homogenität nicht zu unterscheiden sein?( X 1 , X 2 )
Antworten:
Sie müssen sich nur fragen: "Wie schreibe ich die Nullhypothese?". Betrachten Sie eine Kontingenztabelle mit Häufigkeiten eines bestimmten Verhaltens (j / n) unter einer Anzahl von Gruppen. Wenn Sie die 1. Gruppe als Referenz behandeln, haben Sie Quotenverhältnisse ( ), die die Assoziation zwischen Häufigkeit und Gruppe beschreiben.k k - 1 & thgr ; i , i = 1 , 2 , … , k - 12 × k k k - 1 θich, i = 1 , 2 , … , k - 1
Unter Unabhängigkeit wie bei Homogenität nehmen Sie an, dass alle Quotenverhältnisse 1 sind. Das heißt, die Wahrscheinlichkeit, auf die Bedingung mit "Ja" zu antworten, ist unabhängig von der Gruppenzuordnung gleich wahrscheinlich. Wenn diese Annahmen fehlschlagen, unterscheidet sich mindestens eine Gruppe.
Und dieser Test kann mit dem Pearson Chi-Quadrat-Test unter Verwendung der beobachteten / erwarteten Häufigkeiten durchgeführt werden. Dies ist der Score-Test für das logistische Regressionsmodell, bei dem Indikatorvariablen für die Gruppenmitgliedschaft angepasst werden. Strukturell können wir also sagen, dass diese Tests gleich sind.k - 1
Unterschiede ergeben sich jedoch, wenn wir die Art des Gruppierungsfaktors betrachten. In diesem Sinne ist die kontextbezogene Anwendung des Tests bzw. seines Namens wichtig. Eine Gruppe kann direkt kausal für ein Ergebnis sein, wie das Vorhandensein oder Fehlen eines Gens oder eines Allelmusters eines Merkmals. In diesem Fall schließen wir, wenn wir die Null ablehnen, dass das Ergebnis vom fraglichen Gruppierungsfaktor abhängt .
Wenn wir andererseits die Homogenität testen, entlasten wir uns von kausalen Annahmen. Wenn es sich bei der "Gruppe" also um ein ausgeklügeltes Konstrukt wie eine Rasse handelt (das genetische, verhaltensbezogene und sozioökonomische Determinanten verursacht und durch diese verursacht wird), können wir Schlussfolgerungen ziehen wie "rassisch-ethnische Minderheiten weisen Wohnunterschiede auf, die durch Heterogenität im Nachbarschaftsentzugsindex belegt werden". . Wenn jemand einem solchen Argument entgegentrat, indem er sagte: "Nun, das liegt daran, dass Minderheiten eine niedrigere Bildung erreichen, ein geringeres Einkommen verdienen und weniger Beschäftigung finden", könnte man sagen: "Ich habe nicht behauptet, dass ihre Rasse diese Dinge verursacht hat , nur das, wenn man so aussieht Bei der eigenen Rasse können Sie Vorhersagen über ihre Lebensbedingungen treffen. "
Auf diese Weise sind Abhängigkeitstests ein Sonderfall von Homogenitätstests, bei denen der mögliche Effekt lauernder Faktoren von Interesse ist und in einer Schichtanalyse behandelt werden sollte. Die Verwendung einer multivariaten Anpassung im analogen logistischen Regressionsmodell erreicht so etwas, und wir können immer noch sagen, dass wir einen Abhängigkeitstest durchführen, aber nicht unbedingt eine Homogenität.
quelle
Es gibt einen deutlichen Unterschied zwischen den beiden Problemen, wenn Sie sie auf Bayes'sche Weise modellieren. In einigen Veröffentlichungen wird der erste Fall (Homogenität) als Stichprobe mit "einem festen Rand" und der zweite Fall (Unabhängigkeit) als "Gesamttabelle fest" bezeichnet. Schauen Sie sich zum Beispiel Casella et al. (JASA 2009) .
Ich arbeite an diesem Thema, aber mein Artikel - der auch diese Unterscheidung beschreibt - ist noch nicht erschienen :)
quelle