Ich mache multiple lineare Regression. Ich habe 21 Beobachtungen und 5 Variablen. Mein Ziel ist es nur, die Beziehung zwischen Variablen zu finden
- Reicht mein Datensatz aus, um eine multiple Regression durchzuführen?
Das T-Testergebnis ergab, dass 3 meiner Variablen nicht signifikant sind. Muss ich meine Regression mit den signifikanten Variablen erneut durchführen (oder reicht meine erste Regression aus, um eine Schlussfolgerung zu ziehen)? Meine Korrelationsmatrix lautet wie folgt
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 und var 2 sind Fortsetzungsvariablen und var 3 bis 5 sind kategoriale Variablen und y ist meine abhängige Variable.
Es sollte erwähnt werden, dass die wichtige Variable, die in der Literatur als der einflussreichste Faktor für meine abhängige Variable angesehen wurde, aufgrund meiner Datenbeschränkung nicht auch zu meinen Regressionsvariablen gehört. Ist es immer noch sinnvoll, eine Regression ohne diese wichtige Variable durchzuführen?
Hier ist mein Konfidenzintervall
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
Die Antwort auf die allgemeine Frage lautet, dass sie von vielen Faktoren abhängt, wobei die wichtigsten (1) die Anzahl der Kovariaten (2) die Varianz der Schätzungen und Residuen sind. Mit einer kleinen Stichprobe haben Sie nicht viel Leistung, um einen Unterschied von 0 zu erkennen. Daher würde ich die geschätzte Varianz der Regressionsparameter betrachten. Nach meiner Erfahrung mit Regression reichen 21 Beobachtungen mit 5 Variablen nicht aus, um Variablen auszuschließen. Ich würde also nicht so schnell Variablen rauswerfen oder mich zu sehr in diejenigen verlieben, die bedeutsam erscheinen. Die beste Antwort ist zu warten, bis Sie viel mehr Daten haben. Manchmal ist das leicht zu sagen, aber schwer zu tun. Ich würde schrittweise Regression, Vorwärts- und Rückwärtsregression betrachten, um zu sehen, welche Variablen ausgewählt werden. Wenn die Kovariaten stark korreliert sind, können sehr unterschiedliche Sätze von Variablen ausgewählt werden. Booten Sie das Modellauswahlverfahren, da dies die Empfindlichkeit der Variablenauswahl gegenüber Änderungen in den Daten aufzeigt. Sie sollten die Korrelationsmatrix für Kovariaten berechnen. Vielleicht mischt sich Frank Harrell ein. Er ist ein echter Experte für Variablenauswahl. Ich denke, er würde mir zumindest zustimmen, dass Sie kein endgültiges Modell auswählen sollten, das ausschließlich auf diesen 21 Datenpunkten basiert.
quelle