Ich habe das folgende Problem: Ich führe eine mehrfache logistische Regression für mehrere Variablen durch, von denen jede eine nominelle Skala hat. Ich möchte Multikollinearität in meiner Regression vermeiden. Wenn die Variablen kontinuierlich wären, könnte ich den Varianzinflationsfaktor (VIF) berechnen und nach Variablen mit einem hohen VIF suchen. Wenn die Variablen normalerweise skaliert wären, könnte ich die Rangkorrelationskoeffizienten nach Spearman für mehrere Variablenpaare berechnen und den berechneten Wert mit einem bestimmten Schwellenwert vergleichen. Aber was mache ich, wenn die Variablen nur nominell skaliert sind? Eine Idee wäre, einen paarweisen Chi-Quadrat-Test für die Unabhängigkeit durchzuführen, aber die verschiedenen Variablen haben nicht alle die gleichen Co-Domänen. Das wäre also ein weiteres Problem. Gibt es eine Möglichkeit, dieses Problem zu lösen?
9
Antworten:
Ich würde @ EdMs Kommentar (+1) unterstützen und vorschlagen, einen regulierten Regressionsansatz zu verwenden.
Ich denke, dass ein elastischer Netz / Grat-Regressionsansatz es Ihnen ermöglichen sollte, mit kollinearen Prädiktoren umzugehen. Achten Sie nur darauf, Ihre Feature-Matrix angemessen zu normalisieren, bevor Sie sie verwenden. Andernfalls besteht die Gefahr, dass Sie jedes Feature überproportional regulieren (ja, ich meine die Spalten, Sie sollten sie so skalieren, dass jede Spalte eine Einheitsvarianz und einen Mittelwert von ).X 0/1 0
Natürlich müssten Sie Ihre Ergebnisse gegenseitig validieren, um eine gewisse Stabilität zu gewährleisten. Lassen Sie mich auch bemerken, dass Instabilität kein großes Problem ist, da dies tatsächlich darauf hindeutet, dass es keine offensichtliche Lösung / kein offensichtliches Ergebnis gibt und die einfache Interpretation des GLM-Verfahrens als "Grundwahrheit" inkohärent ist.
quelle
Das ViF ist in Ihrem Fall immer noch eine nützliche Maßnahme, aber die Bedingungsnummer Ihrer Entwurfsmatrix ist ein häufigerer Ansatz für kategoriale Daten.
Die ursprüngliche Referenz ist hier:
Belsley, David A.; Kuh, Edwin; Welsch, Roy E. (1980). "Die Bedingungsnummer". Regressionsdiagnose: Identifizierung einflussreicher Daten und Kollinearitätsquellen. New York: John Wiley & Sons. S. 100–104.
Und hier sind weitere nützliche Links:
https://en.wikipedia.org/wiki/Condition_number
https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf
quelle
Ein anderer Ansatz wäre die Durchführung einer Multiple Correspondence Analysis (MCA) für Ihre multikollinearen unabhängigen Variablen. Danach erhalten Sie orthogonale (vollkommen unabhängige) Komponenten, die Sie als IV in Ihrem Modell verwenden können. Es ist keine Kollinearität vorhanden, aber es ist schwierig, die Auswirkungen Ihrer ursprünglichen Variablen zu interpretieren. Auf der anderen Seite vereint MCA bei Multikollinearität die Effekte Ihrer korrelierten IV-Variablen zu allgemeineren Effekten, die Sie noch besser interpretieren und plausibler finden können.
quelle
Sie können die Bi-Variate-Korrelation überprüfen, indem Sie die Rangfolge oder einen anderen nicht parametrischen Test für kategoriale Variablen verwenden. Es ist dasselbe, wie Sie die Korrelationsmatrix für eine Gruppe kontinuierlicher Variablen überprüfen. Verwenden Sie einfach einen anderen Test.
quelle