Regression mit sehr kleiner Stichprobengröße

9

Ich möchte eine Regression mit 4 bis 5 erklärenden Variablen durchführen, habe aber nur 15 Beobachtungen. Wenn nicht angenommen werden kann, dass diese Variablen normal verteilt sind, gibt es eine nicht parametrische oder eine andere gültige Regressionsmethode?

Bob
quelle
5
Es gibt keine Annahme, dass eine der erklärenden Variablen normal ist. Es gibt auch keine Annahme über die marginale Verteilung der Antwort. Wenn Sie CIs oder Hypothesentests durchführen, setzt die übliche Schlussfolgerung eine bedingte Normalität der Antwort voraus. Wichtiger sind die Annahmen von Linearität und konstanter Varianz. Woraus besteht Ihre Antwort (/ warum wird es nicht normal sein)?
Glen_b -State Monica
3
Nein, Sie haben nicht genug Daten. Dies ist eine explorative Analyse. Sie können durchaus suggestive Beziehungen gesehen haben. Sie sollten jedoch p-Werte, Konfidenzintervalle und Hypothesentests vermeiden.
Charles

Antworten:

10

@Glen_b hat Recht mit der Art der Normalitätsannahme in Regression 1 .

Ich denke, Ihr größeres Problem wird sein, dass Sie nicht genug Daten haben, um 4 bis 5 erklärende Variablen zu unterstützen. Die Standardregel von Faust 2 lautet, dass Sie mindestens 10 Daten pro erklärender Variable haben sollten, dh 40 oder 50 Daten in Ihrem Fall (und dies ist für ideale Situationen, in denen keine Frage zu den Annahmen besteht). Weil Ihr Modell nicht vollständig gesättigt wäre 3(Sie haben mehr Daten als Parameter zum Anpassen), können Sie Parameterschätzungen (Steigung usw.) erhalten, und unter idealen Umständen sind die Schätzungen asymptotisch unvoreingenommen. Es ist jedoch sehr wahrscheinlich, dass Ihre Schätzungen weit von den tatsächlichen Werten entfernt sind und Ihre SEs / CIs sehr groß sind, sodass Sie keine statistische Aussagekraft haben. Beachten Sie, dass die Verwendung einer nichtparametrischen oder einer anderen alternativen Regressionsanalyse Sie nicht aus diesem Problem herausholt.

Was Sie hier tun müssen, ist entweder eine einzelne erklärende Variable auszuwählen (bevor Sie sich Ihre Daten ansehen!), Die auf früheren Theorien in Ihrem Bereich oder Ihren Vorstellungen basiert, oder Sie sollten Ihre erklärenden Variablen kombinieren. Eine vernünftige Strategie für die letztere Option besteht darin, eine Hauptkomponentenanalyse (PCA) durchzuführen und die erste Hauptkomponente als erklärende Variable zu verwenden.

Referenzen:
1. Was ist, wenn Residuen normal verteilt sind, Y jedoch nicht?
2. Faustregeln für die minimale Stichprobengröße bei multipler Regression
3. Maximale Anzahl unabhängiger Variablen, die in eine multiple Regressionsgleichung eingegeben werden können

gung - Monica wieder einsetzen
quelle