Wenn ich jede Probenbeobachtung in einem linearen Regressionsmodell wiederhole und die Regression erneut durchführe, wie würde sich dies auf das Ergebnis auswirken?

15

Angenommen, ich habe N Beobachtungen, möglicherweise mehrere Faktoren, und ich wiederhole jede Beobachtung zweimal (oder M Mal).

Palace Chan
quelle

Antworten:

13

Konzeptionell fügen Sie keine "neuen" Informationen hinzu, sondern "kennen" diese Informationen genauer.

Dies würde daher zu denselben Regressionskoeffizienten mit kleineren Standardfehlern führen.

Beispielsweise dupliziert die Funktion expand x in Stata jede Beobachtung x- mal.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Wie Sie sehen, werden früher nicht signifikante Koeffizienten (Längen) im erweiterten Modell statistisch signifikant und repräsentieren die Präzision, mit der Sie wissen, was Sie wissen.

pmgjones
quelle
Ja Standardfehler gehen in der Tat runter. Einige empfehlen hierfür eine gewichtete lineare Regression. Gibt es eine Methode, mit der Sie dies beheben können?
BBDynSys
3

Eine gewöhnliche lineare Regression löst das Problem

w=argminw||Xw-y||2
wo X ist die Matrix der Prädiktoren und yist die Antwort. Wenn Sie jede Probe wiederholenM Mal würde die Zielfunktion unverändert minimiert werden (mit Ausnahme eines multiplikativen Faktors) M). Daher wäre der Gewichtsvektor, der für das größere Problem optimal ist, der gleiche wie für das ursprüngliche kleinere Problem.
Innuo
quelle
Einverstanden, aber ich denke, dass sich die Statistiken und Standardfehler ändern sollten, wenn von N zu NM gewechselt wird?
Palace Chan
Da OLS davon ausgeht, dass das Rauschen unabhängig ist, wäre der Standardfehler unterschiedlich, da die Anzahl der Freiheitsgrade wäre MN-P (N ist Originalgröße und P ist die Anzahl der Prädiktoren) und die Länge des Restvektors steigt um einen Faktor von M.
Innuo