Minimale Punktzahl für eine lineare Regression

15

Was wäre eine "vernünftige" minimale Anzahl von Beobachtungen, um nach einem Trend im Zeitverlauf mit einer linearen Regression zu suchen? Wie wäre es mit der Anpassung eines quadratischen Modells?

Ich arbeite mit zusammengesetzten Indizes der Ungleichheit in der Gesundheit (SII, RII) und habe nur 4 Wellen der Umfrage, also 4 Punkte (1997, 2001, 2004, 2008).

Ich bin kein Statistiker, aber ich habe den intuitiven Eindruck, 4 Punkte reichen nicht aus. Haben Sie eine Antwort und / oder Referenzen?

Danke vielmals,

Françoise

Francoise
quelle
4
Die übliche Faustregel lautet 10 Punkte für jede unabhängige Variable.
Peter Flom - Reinstate Monica
1
Wie werden Ihre Indizes gemessen? Wenn sie Schätzungen der Variabilität enthalten, können zwei ausreichen (mit einem t-Test oder einem analogen Test). Das grundlegende statistische Prinzip, das hier angewendet wird, lautet: Wenn zufällige Abweichungen eine unwahrscheinliche Erklärung für das sind, was Sie beobachten, haben Sie das Recht, jeden offensichtlichen Trend nicht zufälligen Ursachen zuzuschreiben. Wenn der Trend stark ist, sind möglicherweise nur sehr wenige Datenwerte erforderlich, um zu einem solchen Ergebnis zu gelangen, ungeachtet aller allgemeinen "Faustregeln".
Whuber

Antworten:

11

Peters Faustregel von 10 pro Kovariate ist eine vernünftige Regel. Eine gerade Linie kann unabhängig von der Stärke des Rauschens in den Antwortwerten perfekt an zwei beliebige Punkte angepasst werden, und eine quadratische Linie kann perfekt an nur 3 Punkte angepasst werden. Es ist also klar, dass unter fast allen Umständen 4 Punkte nicht ausreichen. Wie die meisten Faustregeln deckt es jedoch nicht jede Situation ab. Fälle, in denen der Rauschausdruck im Modell eine große Varianz aufweist, erfordern mehr Abtastwerte als ein ähnlicher Fall, in dem die Fehlervarianz gering ist.

Die erforderliche Anzahl von Abtastpunkten hängt von den Objekten ab. Wenn Sie eine explorative Analyse durchführen, um festzustellen, ob ein Modell (z. B. linear in einer Kovariate) besser aussieht als ein anderes (z. B. eine quadratische Funktion der Kovariate), sind möglicherweise weniger als 10 Punkte ausreichend. Wenn Sie jedoch sehr genaue Schätzungen der Korrelations- und Regressionskoeffizienten für die Kovariaten wünschen, benötigen Sie möglicherweise mehr als 10 pro Kovariate. Ein Kriterium für die Genauigkeit der Vorhersage könnte noch mehr Stichproben erfordern als genaue Parameterschätzungen. Es ist zu beachten, dass die Varianz der Schätzungen und der Vorhersage alle die Varianz des Modellfehlerausdrucks umfasst.

Michael R. Chernick
quelle
Gute Punkte, Michael; Ich habe versucht, es einfach zu halten. :-). Angesichts des Themas der ursprünglichen Frage wäre ich sehr überrascht, wenn weniger als 10 Punkte ausreichen würden. Messungen der gesundheitlichen Ungleichheit scheinen sehr fehlerbehaftet zu sein, und es ist unwahrscheinlich, dass die Beziehungen zur Zeit sehr linear sind. Kennen Sie Artikel dazu? Es ist ein interessantes Thema, das häufig auftaucht.
Peter Flom - Wiedereinsetzung von Monica
@ PeterFlom Ich weiß nicht. Ich würde in van Belle'as Buch über statistische Faustregeln nachsehen, ob er eine Regel wie die von Ihnen erwähnte verwendet. Das Schöne an seinem Buch ist, dass er die Gründe für jede Regel erklärt. Ich stimme Ihnen zu, dass eine Regel, die besagt, dass mindestens 10 pro Kovariate eingenommen werden muss, ziemlich gut ist und die Verwendung von weniger selten sicher ist, außer in einigen Sondierungsfällen. In den Gesundheitswissenschaften, in denen ich arbeite, scheint der Lärmbegriff immer groß zu sein, aber vielleicht können einige streng kontrollierte physikalische oder technische Experimente sehr genaue Messungen und damit kleine Zufallsfehler haben.
Michael R. Chernick
Ich habe nur versucht, auf die Möglichkeit eines geringen Rauschens hinzuweisen, bei dem weniger als 10 Punkte erforderlich sind, obwohl die Möglichkeit möglicherweise weit entfernt liegt.
Michael R. Chernick
R2
+1, gute Infos, aber es ist auch erwähnenswert, dass Sie, wenn Ihr Schätzer unvoreingenommen ist, ein gesättigtes Modell haben können und trotzdem eine Schätzung der Parameter haben können, wenn das alles ist, was Sie brauchen. Sie haben keine Schätzung der Variabilität und können keine Schlussfolgerungen ziehen. In einigen Fällen jedoch, in denen es schwierig ist, viele Effekte abzuschätzen und Daten zu erhalten, werden manchmal gesättigte Modelle verwendet. In diesem Fall könnten Sie z. B. eine Schätzung der Funktion mit den quadratischen mit 3 Punkten erhalten. Ich meine nicht unbedingt, dass es eine gute Sache ist, aber das ist die wahre Untergrenze und der Grund warum.
gung - Reinstate Monica