Ich möchte eine Regression mit 4 bis 5 erklärenden Variablen durchführen, habe aber nur 15 Beobachtungen. Wenn nicht angenommen werden kann, dass diese Variablen normal verteilt sind, gibt es eine nicht parametrische oder eine andere gültige Regressionsmethode?
9
Antworten:
@Glen_b hat Recht mit der Art der Normalitätsannahme in Regression 1 .
Ich denke, Ihr größeres Problem wird sein, dass Sie nicht genug Daten haben, um 4 bis 5 erklärende Variablen zu unterstützen. Die Standardregel von Faust 2 lautet, dass Sie mindestens 10 Daten pro erklärender Variable haben sollten, dh 40 oder 50 Daten in Ihrem Fall (und dies ist für ideale Situationen, in denen keine Frage zu den Annahmen besteht). Weil Ihr Modell nicht vollständig gesättigt wäre 3(Sie haben mehr Daten als Parameter zum Anpassen), können Sie Parameterschätzungen (Steigung usw.) erhalten, und unter idealen Umständen sind die Schätzungen asymptotisch unvoreingenommen. Es ist jedoch sehr wahrscheinlich, dass Ihre Schätzungen weit von den tatsächlichen Werten entfernt sind und Ihre SEs / CIs sehr groß sind, sodass Sie keine statistische Aussagekraft haben. Beachten Sie, dass die Verwendung einer nichtparametrischen oder einer anderen alternativen Regressionsanalyse Sie nicht aus diesem Problem herausholt.
Was Sie hier tun müssen, ist entweder eine einzelne erklärende Variable auszuwählen (bevor Sie sich Ihre Daten ansehen!), Die auf früheren Theorien in Ihrem Bereich oder Ihren Vorstellungen basiert, oder Sie sollten Ihre erklärenden Variablen kombinieren. Eine vernünftige Strategie für die letztere Option besteht darin, eine Hauptkomponentenanalyse (PCA) durchzuführen und die erste Hauptkomponente als erklärende Variable zu verwenden.
Referenzen:
1. Was ist, wenn Residuen normal verteilt sind, Y jedoch nicht?
2. Faustregeln für die minimale Stichprobengröße bei multipler Regression
3. Maximale Anzahl unabhängiger Variablen, die in eine multiple Regressionsgleichung eingegeben werden können
quelle