Ich habe einen Datensatz mit zwei kategorialen nominalen Variablen (beide mit 5 Kategorien). Ich würde gerne wissen, ob (und wie) ich mögliche Korrelationen zwischen den Kategorien aus diesen beiden Variablen identifizieren kann.
Mit anderen Worten, ob zum Beispiel die Ergebnisse der Kategorie in Variable 1 eine starke Korrelation mit einer bestimmten Kategorie in Variable 2 aufweisen. Da ich zwei Variablen mit 5 Kategorien habe, würde die Gesamtkorrelationsanalyse für alle Kategorien auf 25 Ergebnisse reduziert (Zumindest wenn es so funktioniert, wie ich es hoffe / erwarte).j
Ich habe versucht, das Problem in konkrete Fragen zu formulieren:
Frage 1: Angenommen, ich übertrage die kategoriale Variable in 5 verschiedene Dummy-Variablen pro Wert (Kategorie). Das gleiche Verfahren führe ich auch für die zweite Variable aus. Dann möchte ich die Korrelation zwischen Dummy 1.i und 2.i (zum Beispiel) bestimmen. Ist es für mich statistisch korrekt, dieses Verfahren mittels eines gewöhnlichen Korrelationskoeffizientenverfahrens auszuführen? Bietet der aus diesem Verfahren resultierende Korrelationskoeffizient einen angemessenen Einblick in eine Korrelation zwischen den beiden Dummy-Variablen?
Frage 2: Wenn die in Frage 1 beschriebene Prozedur eine gültige Prozedur ist, gibt es eine Möglichkeit, diese Analyse für alle Kategorien von 2 (oder vielleicht mehr) kategorialen nominalen Variablen gleichzeitig durchzuführen?
Das Programm, das ich benutze, ist SPSS (20).
Antworten:
Die „Focal“ Assoziation zwischen Kategorie von einer Sollgröße und Kategorie des anderen wird durch die Frequenz ausgedrückt Rest in der Zelle , wie wir wissen. Wenn der Rest 0 ist, bedeutet dies, dass die Frequenz den Erwartungen entspricht, wenn die beiden nominalen Variablen nicht zugeordnet sind. Je größer der Rest ist, desto größer ist die Assoziation aufgrund der überrepräsentierten Kombination in der Stichprobe. Der große negative Rest sagt äquivalent über die unterrepräsentierte Kombination aus. Frequenzrest ist also das, was Sie wollen.i j ij ij
Rohe Residuen sind jedoch nicht geeignet, da sie von den Grenzsummen und der Gesamtsumme sowie der Tabellengröße abhängen: Der Wert ist in keiner Weise standardisiert. SPSS kann Ihnen jedoch standardisierte Residuen anzeigen, die auch als Pearson-Residuen bezeichnet werden. St. Residuum ist das Residuum geteilt durch eine Schätzung seiner Standardabweichung (gleich der Quadratwurzel des erwarteten Wertes). St. Residuen einer Tabelle haben Mittelwert 0 und st. dev. 1; deshalb st. Residuum dient einem z-Wert, wie z-Wert in einer Verteilung einer quantitativen Variablen (tatsächlich ist es z in der Poisson-Verteilung). St. Residuen sind zwischen verschiedenen Tabellen gleicher Größe und gleicher Gesamt- . Die Chi-Quadrat-Statistik einer Kontingenztabelle ist die Summe der quadratischen st. ResiduenN drin. Vergleich st. Residuen in einer Tabelle und in Tabellen mit gleichem Volumen helfen dabei, die bestimmten Zellen zu identifizieren, die am meisten zur Chi-Quadrat-Statistik beitragen.
SPSS zeigt auch angepasste Residuen an (= angepasste standardisierte Residuen). Adj. Residuum ist das Residuum geteilt durch eine Schätzung seines Standardfehlers. Interessant, dass adj. Der Rest ist gerade gleich , wobei die Gesamtsumme und die Pearson- Korrelation (Alias-Phi-Korrelation) zwischen Dummy- Variablen ist, die den Kategorien und der beiden nominalen Variablen entsprechen . Dieses ist genau das, was Sie sagen, dass Sie berechnen möchten. Adj. Residuum steht in direktem Zusammenhang damit.N−−√rij N rij i j r
Im Gegensatz zu st. Rest, adj. Rest wird auch auf die Form der Randverteilungen in der Tabelle genormt WRT (es berücksichtigt die erwartete Frequenz nicht nur in der Zelle , sondern auch in den Zellen außerhalb seiner Reihe und seiner Säule) und so direkt die sehen können Stärke der Verbindung zwischen den Kategorien und - ohne sich Gedanken darüber zu machen, ob ihre Grenzwerte im Vergleich zu den anderen Kategorien groß oder klein sind. Adj. Residuum ist auch wie ein Z-Score, aber jetzt ist es wie Z der Normalverteilung (nicht Poisson). Wenn adj. Der Rest liegt über 2 oder unter -2. Sie können daraus schließen, dass er auf Stufe signifikant ist . Adj. Residuen werden immer noch von bewirkt ;i j 1 N r 's sind nicht, aber Sie können alle s von adj erhalten. Residuen nach der obigen Formel, ohne Zeit für die Erstellung von Dummy-Variablen aufzuwenden. r 2
p<0.05
In Bezug auf Ihre zweite Frage zu 3-Wege-Kategorienbindungen ist dies im Rahmen der allgemeinen loglinearen Analyse möglich, bei der auch Residuen angezeigt werden. Die praktische Verwendung von 3-Wege-Zellresten ist jedoch bescheiden: 3 (+) - Wege-Assoziationsmaßnahmen sind nicht leicht zu standardisieren und nicht leicht zu interpretieren.
i j r i j Pr ( i , 1 ) Pr ( i , 2 ) i i2 Daraus folgt, dass die Signifikanz des angepassten Residuums in Zelle gleich der Signifikanz von . Wenn die Tabelle nur 2 Spalten enthält und Sie einen Z-Test der Proportionen zwischen und , werden die Spaltenproportionen für Zeile , die Der p-Wert dieses Tests entspricht der Signifikanz beider (beliebiger) Adj. Residuen in Zeile der 2-Spalten-Tabelle.ij rij Pr(i,1) Pr(i,2) i i
quelle
Direkt aus einem Dokument über bivariate Statistiken mit SPSS, das hier lebt :
quelle
the SPSS document
etwas bearbeitet , es war nicht meine Absicht, ihm eine unangemessene Authentizität beizumessen.