Im Rahmen eines sozialwissenschaftlichen Forschungsvorschlags wurde mir folgende Frage gestellt:
Ich bin immer um 100 + m (wobei m die Anzahl der Prädiktoren ist) gegangen, wenn ich die minimale Stichprobengröße für die multiple Regression bestimmt habe. Ist das angebracht
Ich bekomme oft ähnliche Fragen, oft mit anderen Faustregeln. Ich habe solche Faustregeln auch ziemlich oft in verschiedenen Lehrbüchern gelesen. Ich frage mich manchmal, ob die Popularität einer Regel in Bezug auf Zitate davon abhängt, wie niedrig der Standard eingestellt ist. Mir ist jedoch auch bewusst, wie wichtig eine gute Heuristik ist, um die Entscheidungsfindung zu vereinfachen.
Fragen:
- Welchen Nutzen haben einfache Faustregeln für Mindeststichprobengrößen im Kontext von angewandten Forschern, die Forschungsstudien entwerfen?
- Würden Sie eine alternative Faustregel für die minimale Stichprobengröße bei multipler Regression vorschlagen?
- Welche alternativen Strategien schlagen Sie alternativ vor, um die Mindeststichprobengröße für die multiple Regression zu bestimmen? Insbesondere wäre es gut, wenn Wert darauf gelegt würde, inwieweit eine Strategie von einem Nicht-Statistiker ohne weiteres angewendet werden kann.
quelle
(+1) für in der Tat eine meiner Meinung nach entscheidende Frage.
In der Makroökonometrie haben Sie in der Regel viel kleinere Stichproben als in mikro-, finanz- oder soziologischen Experimenten. Ein Forscher fühlt sich recht wohl, wenn er zumindest durchführbare Schätzungen abgeben kann. Meine persönliche kleinstmögliche Faustregel lautet ( Freiheitsgrade für einen geschätzten Parameter). In anderen angewandten Studienbereichen haben Sie normalerweise mehr Glück mit Daten (wenn diese nicht zu teuer sind, sammeln Sie einfach mehr Datenpunkte), und Sie können sich fragen, was die optimale Größe einer Stichprobe ist (nicht nur der Mindestwert für solche). Das letztere Problem ergibt sich aus der Tatsache, dass Daten mit geringerer Qualität (verrauscht) nicht besser sind als kleinere Stichproben mit hoher Qualität.4⋅m 4
Die meisten Stichprobengrößen hängen von der Teststärke der Hypothese ab, die Sie testen möchten, nachdem Sie das multiple Regressionsmodell angepasst haben.
Es gibt einen netten Taschenrechner , der für mehrere Regressionsmodelle und einige Formeln hinter den Kulissen nützlich sein könnte . Ich denke, ein solcher Prioritätsrechner könnte leicht von Nicht-Statistikern angewendet werden.
Wahrscheinlich sind Artikel von K.Kelley und SEMaxwell nützlich, um die anderen Fragen zu beantworten, aber ich brauche zunächst mehr Zeit, um das Problem zu untersuchen.
quelle
Ihre Faustregel ist nicht besonders gut, wenn sehr groß ist. Nehmen Sie : Ihre Regel besagt, dass es in Ordnung ist, Variablen mit nur Beobachtungen anzupassen. Ich denke kaum so!m m=500 500 600
Für die multiple Regression haben Sie eine Theorie, die eine minimale Stichprobengröße vorschlägt. Wenn Sie gewöhnliche kleinste Quadrate verwenden, ist eine der Annahmen, die Sie benötigen, dass die "wahren Residuen" unabhängig sind. Wenn Sie nun ein Modell der kleinsten Quadrate an Variablen anpassen, legen Sie Ihren empirischen Residuen (gegeben durch die kleinsten Quadrate oder "normalen" Gleichungen) lineare Einschränkungen auf. Dies impliziert, dass die empirischen Residuen nicht unabhängig sind - sobald wir von ihnen kennen, kann das verbleibende abgeleitet werden, wobei die Stichprobengröße ist. Wir haben also einen Verstoß gegen diese Annahme. Nun ist die Reihenfolge der Abhängigkeit . Also wenn du willstm m+1 n−m−1 m+1 n O(m+1n) n=k(m+1) für irgendeine Zahl , dann ist die Reihenfolge durch . Wenn Sie also wählen, Sie, wie viel Abhängigkeit Sie tolerieren möchten. Ich wähle auf die gleiche Weise, wie Sie es bei der Anwendung des "zentralen Grenzwertsatzes" tun - ist gut, und wir haben die "Statistik-Zählregel" (dh das Zählsystem des Statistikers ist ).k kk10-2030≡∞1,2,…,26,27,28,29,∞O(1k) k k 10−20 30≡∞ 1,2,…,26,27,28,29,∞
quelle
n=k(m+1)
?In der Psychologie:
Grün (1991) gibt an, dass (wobei m die Anzahl der unabhängigen Variablen ist) zum Testen der Mehrfachkorrelation und zum Testen einzelner Prädiktoren erforderlich sind .N > 104 + mN>50+8m N>104+m
Andere Regeln, die verwendet werden können, sind ...
Harris (1985) sagt, dass die Anzahl der Teilnehmer die Anzahl der Prädiktoren um mindestens überschreiten sollte .50
Van Voorhis & Morgan (2007) ( pdf ) mit 6 oder mehr Prädiktoren sollte das absolute Minimum an Teilnehmern . Es ist jedoch besser, Teilnehmer pro Variable zu wählen.3010 30
quelle
N = 50 + 8 m
, obwohl in Frage gestellt wurde, ob der Term 50 tatsächlich benötigt wirdIch bin damit einverstanden, dass Leistungsrechner nützlich sind, um insbesondere die Auswirkungen verschiedener Faktoren auf die Leistung zu erkennen. In diesem Sinne sind Taschenrechner mit mehr Eingabeinformationen viel besser. Für die lineare Regression mag ich hier den Regressionsrechner , der Faktoren wie Fehler in Xs, Korrelation zwischen Xs und mehr enthält.
quelle
Ich habe in diesem kürzlich erschienenen Artikel (2015) festgestellt, dass nur 2 Beobachtungen pro Variable ausreichen, solange unser Interesse an der Genauigkeit der geschätzten Regressionskoeffizienten und Standardfehler (und an der empirischen Abdeckung der resultierenden Konfidenzintervalle) und wir besteht benutze das angepasste :R2
( pdf )
Natürlich impliziert (relative) Unparteilichkeit nicht notwendigerweise eine ausreichende statistische Aussagekraft. Berechnungen zu Leistung und Stichprobengröße werden jedoch in der Regel unter Angabe der erwarteten Auswirkungen durchgeführt. Im Falle einer multiplen Regression impliziert dies eine Hypothese über den Wert der Regressionskoeffizienten oder über die Korrelationsmatrix zwischen den Regressoren und dem Ergebnis, die erstellt werden muss. In der Praxis hängt es von der Stärke der Korrelation der Regressoren mit dem Ergebnis und untereinander ab (je stärker, desto besser für die Korrelation mit dem Ergebnis, während sich die Situation mit der Multikollinearität verschlechtert). Im Extremfall von zwei perfekt kollinearen Variablen kann die Regression beispielsweise nicht unabhängig von der Anzahl der Beobachtungen und sogar mit nur 2 Kovariaten durchgeführt werden.
quelle