Mindestanzahl von Beobachtungen für multiple lineare Regression

11

Ich mache multiple lineare Regression. Ich habe 21 Beobachtungen und 5 Variablen. Mein Ziel ist es nur, die Beziehung zwischen Variablen zu finden

  1. Reicht mein Datensatz aus, um eine multiple Regression durchzuführen?
  2. Das T-Testergebnis ergab, dass 3 meiner Variablen nicht signifikant sind. Muss ich meine Regression mit den signifikanten Variablen erneut durchführen (oder reicht meine erste Regression aus, um eine Schlussfolgerung zu ziehen)? Meine Korrelationsmatrix lautet wie folgt

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 und var 2 sind Fortsetzungsvariablen und var 3 bis 5 sind kategoriale Variablen und y ist meine abhängige Variable.

Es sollte erwähnt werden, dass die wichtige Variable, die in der Literatur als der einflussreichste Faktor für meine abhängige Variable angesehen wurde, aufgrund meiner Datenbeschränkung nicht auch zu meinen Regressionsvariablen gehört. Ist es immer noch sinnvoll, eine Regression ohne diese wichtige Variable durchzuführen?

Hier ist mein Konfidenzintervall

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**
Rose
quelle

Antworten:

17

Die allgemeine Faustregel (basierend auf Frank Harrells Buch Regression Modeling Strategies ) lautet: Wenn Sie erwarten, Effekte mit angemessener Größe und angemessener Leistung erkennen zu können , müssen Sie 10 bis 20 Beobachtungen pro Parameter (Kovariate) schätzen. Harrell diskutiert viele Optionen für die "Dimensionsreduzierung" (Reduzierung der Anzahl der Kovariaten auf eine vernünftigere Größe), wie z. B. PCA. Das Wichtigste ist jedoch, dass die Dimensionsreduzierung durchgeführt werden muss, um Vertrauen in die Ergebnisse zu haben ohne auf die Antwortvariable zu schauen . Es ist in fast jedem Fall eine schlechte Idee, die Regression nur mit den signifikanten Variablen erneut durchzuführen, wie Sie oben vorschlagen.

Da Sie jedoch an einem Datensatz und einer Reihe von Kovariaten festhalten, an denen Sie interessiert sind, halte ich es nicht für falsch, die multiple Regression auf diese Weise auszuführen. Ich denke, das Beste wäre, die Ergebnisse aus dem vollständigen Modell so zu akzeptieren, wie sie sind (vergessen Sie nicht, die Punktschätzungen und Konfidenzintervalle zu betrachten, um festzustellen, ob die signifikanten Auswirkungen in einigen realen Fällen als "groß" eingeschätzt werden). Weltsinn und ob die nicht signifikanten Effekte tatsächlich als kleiner als die signifikanten Effekte eingeschätzt werden oder nicht).

Ob es sinnvoll ist, eine Analyse ohne den Prädiktor durchzuführen, den Ihr Fachgebiet für wichtig hält: Ich weiß es nicht. Es hängt davon ab, welche Art von Schlussfolgerungen Sie basierend auf dem Modell ziehen möchten. Im engeren Sinne ist das Regressionsmodell immer noch gut definiert ("Was sind die geringfügigen Auswirkungen dieser Prädiktoren auf diese Reaktion?"), Aber jemand in Ihrem Bereich könnte zu Recht sagen, dass die Analyse einfach keinen Sinn ergibt. Es wäre ein wenig hilfreich, wenn Sie wüssten, dass die Prädiktoren, die Sie haben, nicht mit dem bekannten Prädiktor korreliert sind (was auch immer es ist), oder dass der bekannte Prädiktor für Ihre Daten konstant oder nahezu konstant ist. Dann könnten Sie das zumindest sagen etwas anderes als der bekannte Prädiktor wirkt sich auf die Reaktion aus.

Ben Bolker
quelle
Vielen Dank für den Kommentar, aber ich verstehe nicht, wozu das Konfidenzintervall überprüft werden soll.
stieg am
Da Ben für Frank geantwortet hat, werde ich für Ben antworten und er kann mich korrigieren, wenn er etwas anderes im Sinn hat. Ben schlägt vor, nur das vollständige Modell zu verwenden. Dann wissen Sie zumindest, dass Sie keine wichtige Variable aus dem Satz von 5 weggelassen haben. Das Überanpassungsproblem kann die Vorhersage beeinträchtigen, aber zumindest haben Sie Konfidenzintervalle für die Parameter und Sie können Konfidenzintervalle für die Vorhersage erhalten. Ich denke, das wird in Ordnung funktionieren, wenn Sie ein Kollinearitätsproblem haben und die Konfidenzintervalle für die Parameter Sie wissen lassen, ob der Parameterwert 0 sein könnte.
Michael R. Chernick
Wenn dem Modell immer noch wichtige Variablen fehlen, ist die Vorhersage möglicherweise nicht gut und die Bewertung der Vorhersagegenauigkeit auf der Grundlage der angegebenen Daten ist möglicherweise falsch. Sorgen Sie sich um Modellfehlspezifikationen und überprüfen Sie immer die Residuen. Frank Harrell ist ein aktives Mitglied dieser Site. Ich hoffe also, dass diese Frage seine Aufmerksamkeit erregt und wir dann direkt von ihm hören können.
Michael R. Chernick
Es können immer wichtige Variablen fehlen, und Sie können es nie wirklich wissen ... Ich schlug vor, die Konfidenzintervalle zu betrachten, da nur die Frage, ob eine Variable bei signifikant ist oder nicht, viele Informationen verliert. Ein Szenario wäre, dass alle Ihre Parameter ungefähr das gleiche geschätzte Ausmaß der Wirkung haben, aber ihre Unsicherheiten variieren, so dass einige signifikant sind und andere nicht. Sie möchten in diesem Fall definitiv nicht den Schluss ziehen, dass "die Variablen A und B wichtig sind, die Variablen C, D und E nicht". Die CIs geben Ihnen diese Informationen. p<0.05
Ben Bolker
Aus den Diskussionen denke ich, dass ich aufgrund mangelnder Beobachtung und des Fehlens der wichtigsten unabhängigen Variablen in meinem Datensatz die Schlussfolgerung ziehen muss: 1-Die signifikanten Variablen sind nicht die Variable, die den t-Test bestanden hat. Die signifikante ist eine, die den t-Test besteht und deren Konfidenzintervall 0 nicht enthält. 2-Die Normalität des Residuums muss überprüft werden. 3-Die Korrelationsmatrix muss überprüft werden.
stieg am
2

Die Antwort auf die allgemeine Frage lautet, dass sie von vielen Faktoren abhängt, wobei die wichtigsten (1) die Anzahl der Kovariaten (2) die Varianz der Schätzungen und Residuen sind. Mit einer kleinen Stichprobe haben Sie nicht viel Leistung, um einen Unterschied von 0 zu erkennen. Daher würde ich die geschätzte Varianz der Regressionsparameter betrachten. Nach meiner Erfahrung mit Regression reichen 21 Beobachtungen mit 5 Variablen nicht aus, um Variablen auszuschließen. Ich würde also nicht so schnell Variablen rauswerfen oder mich zu sehr in diejenigen verlieben, die bedeutsam erscheinen. Die beste Antwort ist zu warten, bis Sie viel mehr Daten haben. Manchmal ist das leicht zu sagen, aber schwer zu tun. Ich würde schrittweise Regression, Vorwärts- und Rückwärtsregression betrachten, um zu sehen, welche Variablen ausgewählt werden. Wenn die Kovariaten stark korreliert sind, können sehr unterschiedliche Sätze von Variablen ausgewählt werden. Booten Sie das Modellauswahlverfahren, da dies die Empfindlichkeit der Variablenauswahl gegenüber Änderungen in den Daten aufzeigt. Sie sollten die Korrelationsmatrix für Kovariaten berechnen. Vielleicht mischt sich Frank Harrell ein. Er ist ein echter Experte für Variablenauswahl. Ich denke, er würde mir zumindest zustimmen, dass Sie kein endgültiges Modell auswählen sollten, das ausschließlich auf diesen 21 Datenpunkten basiert.

Michael R. Chernick
quelle
Vielen Dank für Ihren Vorschlag. Ich habe meine Korrelationsmatrix hinzugefügt. Halten Sie mit dieser Korrelationsmatrix eine Regression für sinnvoll? Betonen Sie einfach, dass ich nicht mehr Daten sammeln kann und auch nicht modellieren oder vorhersagen möchte. Ich möchte nur eine mögliche Beziehung zwischen unabhängigen Variablen und abhängigen Variablen finden.
stieg am
Die Korrelationsmatrix soll Ihnen einen Eindruck von der Kollinearität vermitteln. Die Schätzungen werden wahrscheinlich große Abweichungen aufweisen, weshalb die statistische Signifikanz nicht im Mittelpunkt stehen sollte. Ypu könnte die Regressionsdiagnostik auf Kollinearität untersuchen. Das könnte helfen. Ich würde jedoch empfehlen, eine Vielzahl von Teilmengenmodellen zu betrachten, um festzustellen, wie sich die Anpassung ändert und welche Variablenkombinationen gut und schlecht zu funktionieren scheinen. Ich denke wirklich, dass das Bootstrapping der Daten Ihnen etwas über die Stabilität der Auswahl der Prädiktoren zeigen wird.
Michael R. Chernick
1
Aber nichts wird den Mangel an Daten ausgleichen. Ich denke, Sie möchten nur sehen, ob es eine oder zwei Variablen gibt, die den Schultern überlegen zu stehen scheinen. Aber Sie können nichts finden.
Michael R. Chernick
Was meinen wir genau mit Kovariaten? Angenommen, wir haben eine Prädiktorvariable Zählt dann beispielsweise als separate Kovariate? Wie wäre es mit , usw. Da es eine gewisse Korrelation zwischen diesen Prädiktoren gibt, sind ihre geschätzten Koeffizienten vermutlich weniger als 1 Freiheitsgrad "wert". Und was ist beispielsweise mit Regressionssplines oder anderen lokalen Regressionen: Müssen wir die Tatsache berücksichtigen, dass bei der Konstruktion der Komponenten nur eine Teilmenge von Beobachtungen verwendet wird? Und wenn wir einen Kernel verwenden, um Prädiktoren Gewichte zuzuweisen, wirkt sich dies auf die effektive Anzahl der verwendeten Beobachtungen aus? x 2 x 3 x 4xx2x3x4
Verwirrt