Ich erstelle ein Regressionsmodell und muss das Folgende berechnen, um auf Korrelationen zu prüfen
- Korrelation zwischen 2 mehrstufigen kategorialen Variablen
- Korrelation zwischen einer mehrstufigen kategorialen Variablen und einer stetigen Variablen
- VIF (Varianzinflationsfaktor) für mehrstufige kategoriale Variablen
Ich glaube, es ist falsch, den Pearson-Korrelationskoeffizienten für die obigen Szenarien zu verwenden, da Pearson nur für 2 kontinuierliche Variablen funktioniert.
Bitte beantworten Sie die folgenden Fragen
- Welcher Korrelationskoeffizient eignet sich am besten für die oben genannten Fälle?
- Die VIF-Berechnung funktioniert nur für kontinuierliche Daten. Was ist die Alternative?
- Welche Annahmen muss ich überprüfen, bevor ich den von Ihnen vorgeschlagenen Korrelationskoeffizienten verwende?
- Wie implementiere ich sie in SAS & R?
r
statistics
correlation
GeorgeOfTheRF
quelle
quelle
Antworten:
Zwei kategoriale Variablen
Mit dem Chi-Squared-Unabhängigkeitstest kann überprüft werden, ob zwei kategoriale Variablen unabhängig sind.
Dies ist ein typischer Chi-Quadrat-Test : Wenn wir annehmen, dass zwei Variablen unabhängig sind, sollten die Werte der Kontingenztabelle für diese Variablen gleichmäßig verteilt werden. Und dann prüfen wir, wie weit die tatsächlichen Werte von der Uniform entfernt sind.
Es gibt auch ein Crammer-V , das ein Maß für die Korrelation ist, die sich aus diesem Test ergibt
Beispiel
Angenommen, wir haben zwei Variablen
Wir haben folgende Daten beobachtet:
Sind Geschlecht und Stadt unabhängig? Lassen Sie uns einen Chi-Squred-Test durchführen. Nullhypothese: Sie sind unabhängig. Alternative Hypothese ist, dass sie in irgendeiner Weise korreliert sind.
Unter der Nullhypothese nehmen wir eine gleichmäßige Verteilung an. Unsere erwarteten Werte sind also die folgenden
Wir führen also den Chi-Quadrat-Test durch und der resultierende p-Wert kann hier als Maß für die Korrelation zwischen diesen beiden Variablen angesehen werden.
Um Crammers V zu berechnen, ermitteln wir zunächst den Normalisierungsfaktor Chi-Quadrat-Max, der in der Regel der Größe der Stichprobe entspricht. Teilen Sie das Chi-Quadrat durch diesen Faktor und ziehen Sie eine Quadratwurzel
R
Hier ist der p-Wert 0,08 - ziemlich klein, aber immer noch nicht genug, um die Hypothese der Unabhängigkeit zu verwerfen. Wir können also sagen, dass die "Korrelation" hier 0,08 ist
Wir berechnen auch V:
Und erhalte 0,14 (je kleiner v, desto geringer die Korrelation)
Betrachten Sie einen anderen Datensatz
Dafür gäbe es folgendes
Der p-Wert ist 0,72, was weit näher bei 1 liegt, und v ist 0,03 - sehr nahe bei 0
Kategoriale vs numerische Variablen
Für diesen Typ führen wir normalerweise einen Einweg-ANOVA-Test durch : Wir berechnen die gruppeninterne Varianz und die gruppeninterne Varianz und vergleichen sie dann.
Beispiel
Wir wollen gegen die Art von Fett , das die Beziehung zwischen absorbierte Fett aus Donuts studieren verwendet Donuts zu erzeugen (zB aus genommen hier )
Gibt es eine Abhängigkeit zwischen den Variablen? Dazu führen wir einen ANOVA-Test durch und stellen fest, dass der p-Wert nur 0,007 beträgt - zwischen diesen Variablen besteht keine Korrelation.
R
Ausgabe ist
Wir können also auch hier den p-Wert als Maß für die Korrelation nehmen.
Verweise
quelle
kruskal-wallic
stattone-way anova
? Danke im Voraus.