Verständnis des p-Wertes bei multipler linearer Regression

12

In Bezug auf den p-Wert der multiplen linearen Regressionsanalyse wird die Einführung von der Minitab-Website unten gezeigt.

Der p-Wert für jeden Term testet die Nullhypothese, dass der Koeffizient gleich Null ist (kein Effekt). Ein niedriger p-Wert (<0,05) zeigt an, dass Sie die Nullhypothese ablehnen können. Mit anderen Worten, ein Prädiktor mit einem niedrigen p-Wert ist wahrscheinlich eine sinnvolle Ergänzung Ihres Modells, da Änderungen des Prädiktorwerts mit Änderungen der Antwortvariablen zusammenhängen.

Zum Beispiel habe ich ein Modell resultierenden MLR als . und die Ausgabe ist unten gezeigt. Dann kann mit dieser Gleichung ein y berechnet werden.y=0,46753X.1- -0,2668X.2+1,6193X.3+4,5424X.4+14.48y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Basierend auf der obigen Einleitung lautet die Nullhypothese, dass der Koeffizient gleich 0 ist. Mein Verständnis ist, dass der Koeffizient, zum Beispiel der Koeffizient von , als 0 gesetzt wird und ein weiteres y als y 2 = 0,46753 X 1 - berechnet wird. 0,2668 x 2 + 1,6193 x 3 + 0 x 4 + 14,48 . Dann wird ein gepaarter t-Test für y und y 2 durchgeführt , aber der p-Wert dieses t-Tests beträgt 6,9e-12, was nicht gleich 0,1292 ist (p-Wert des Koeffizienten von X 4) .X.4y2=0,46753X.1- -0,2668X.2+1,6193X.3+0X.4+14.48yy2X.4

Kann jemand beim richtigen Verständnis helfen? Danke vielmals!

user2230101
quelle
Können Sie die Ausgabe der Regressionsroutine anzeigen?
Aksakal
Ihre Beschreibung der p-Wert-Berechnung ist nicht Standard. Warum sollte es Ihrer Meinung nach so berechnet werden, wie Sie es beschreiben? Der p-Wert in der Ausgabe wird aus der Var-Cov-Parametermatrix berechnet. Wenn Sie den Einschränkungstest wie Wald ausführen möchten, beschreiben Sie ihn nicht so. Sie müssten das Modell mit 3 Variablen neu schätzen, Loglikelihood usw. erhalten
Aksakal
1
Nach dieser Einführung haben Sie nur eine "signifikante" Variable - den "Achsenabschnitt" -, da nur ihr p-Wert klein ist. Um über die naive und irreführende Praxis im Zitat hinauszugehen, müssen Sie mehr über multiple Regression erfahren. Um zu sehen, was in dieser Hinsicht gelernt werden kann, sollten Sie relevante Themen auf unserer Website erkunden .
whuber
2
Überprüfen Sie die Antworten auf diese beiden Fragen: - stats.stackexchange.com/questions/5135/… und - stats.stackexchange.com/questions/126179/… Sie haben mir geholfen zu verstehen, wie p-Werte berechnet werden. Ich hoffe, Sie finden sie hilfreich auch.
Giacomo

Antworten:

7

Dies ist aus mehreren Gründen falsch:

  1. Das Modell "ohne" X4 hat nicht unbedingt die gleichen Koeffizientenschätzungen für die anderen Werte. Passen Sie das reduzierte Modell an und überzeugen Sie sich selbst.

  2. Y.

  3. Der statistische Test, der für die statistische Signifikanz des Koeffizienten durchgeführt wird, ist ein t-Test mit einer Stichprobe. Dies ist verwirrend, da wir für X4 keine "Stichprobe" mit mehreren Koeffizienten haben, aber wir haben eine Schätzung der Verteilungseigenschaften einer solchen Stichprobe unter Verwendung des zentralen Grenzwertsatzes. Der Mittelwert und der Standardfehler beschreiben den Ort und die Form einer solchen Grenzverteilung. Wenn Sie die Spalte "Est" nehmen und durch "SE" dividieren und mit einer Standardnormalverteilung vergleichen, erhalten Sie die p-Werte in der 4. Spalte.

  4. Ein vierter Punkt: eine Kritik an der Hilfeseite von minitab. Eine solche Hilfedatei konnte in einem Absatz nicht die jahrelange statistische Ausbildung zusammenfassen, so dass ich mich nicht mit der ganzen Sache auseinandersetzen muss. Zu sagen, dass ein "Prädiktor" "ein wichtiger Beitrag" ist, ist vage und wahrscheinlich falsch. Die Gründe für die Auswahl der Variablen, die in ein multivariates Modell aufgenommen werden sollen, sind subtil und beruhen auf wissenschaftlichen Überlegungen und nicht auf statistischen Schlussfolgerungen.

AdamO
quelle
0

Ihre anfängliche Interpretation der p-Werte erscheint korrekt, dh nur der Achsenabschnitt hat einen Koeffizienten, der sich erheblich von 0 unterscheidet. Sie werden feststellen, dass die Schätzung des Koeffizienten für x4 immer noch recht hoch ist, aber es gibt genug Fehler, die nicht signifikant sind anders als 0.

Ihr gepaarter t-Test von y1 und y2 legt nahe, dass sich die Modelle voneinander unterscheiden. Das ist zu erwarten, in einem Modell haben Sie einen großen, aber ungenauen Koeffizienten angegeben, der einen erheblichen Beitrag zu Ihrem Modell leistet. Es gibt keinen Grund zu der Annahme, dass der p-Wert dieser Modelle, die sich voneinander unterscheiden, der gleiche sein sollte wie der p-Wert des Koeffizienten von x4, der sich von 0 unterscheidet.

Nuclear Wang
quelle