Was ist die Nullhypothese für die einzelnen p-Werte bei multipler Regression?

7

Ich habe ein lineares Regressionsmodell für eine abhängige Variable Y basierend auf zwei unabhängigen Variablen, X1 und X2Ich habe also eine allgemeine Form einer Regressionsgleichung

Y=A+B1X1+B2X2+ϵ,

wo A ist der Achsenabschnitt, ϵ ist der Fehlerbegriff und B1 und B2 sind die jeweiligen Koeffizienten von X1 und X2. Ich führe eine multiple Regression mit Software durch (Statistikmodell in Python) und erhalte Koeffizienten für das Modell:A=a,B1=b1,B2=b2. Das Modell gibt mir auchp Werte für jeden Koeffizienten: pa, p1, und p2. Meine Frage ist: Was ist die Nullhypothese für diese Person?pWerte? Zum Beispiel zu erhaltenp1 Ich weiß, dass die Nullhypothese einen 0-Koeffizienten für beinhaltet B1, aber was ist mit den anderen Variablen? Mit anderen Worten, wenn die Nullhypothese istY=A+0X1+B2X2, was sind die Werte von A und B2 für die Nullhypothese, aus der die p-Wert für B1 ist abgleitet?

tmldwn
quelle
2
In Ihrem Modell fehlt ein Fehlerbegriff.
Andreas Dzemski

Antworten:

6

Die Nullhypothese lautet

H0:B1=0andB2RandAR,
was im Grunde bedeutet, dass die Nullhypothese B2 und A nicht einschränkt. Die alternative Hypothese ist
H1:B10andB2RandAR.
In gewisser Weise ist die Nullhypothese im multiplen Regressionsmodell eine zusammengesetzte Hypothese. Es ist "ein Glück", dass wir eine zentrale Teststatistik erstellen können, die nicht vom wahren Wert von B2 und A abhängt, so dass wir keine Strafe durch das Testen einer zusammengesetzten Nullhypothese erleiden.

Mit anderen Worten, es gibt viele verschiedene Verteilungen von (Y,X1,X2) das sind kompatibel mit der Nullhypothese H0. Alle diese Verteilungen führen jedoch zu demselben Verhalten der Teststatistik, die zum Testen verwendet wirdH0.

In meiner Antwort habe ich mich nicht mit der Verteilung von befasst ϵund implizit angenommen, dass es sich um eine unabhängig zentrierte normale Zufallsvariable handelt. Wenn wir nur so etwas annehmen

E[ϵX1,X2]=0
dann gilt eine ähnliche Schlussfolgerung asymptotisch (unter Regelmäßigkeitsannahmen).

Andreas Dzemski
quelle
Aber wie ich es verstehe, muss die Nullhypothese nicht eine Wahrscheinlichkeitsverteilung sein? Wenn ich bestimmte Werte für die Koeffizienten habe, kann ich eine Wahrscheinlichkeitsverteilung erzeugen, indem ich der Regressionsgleichung Rauschen (Epsilon) hinzufüge. Aber wenn ich keine spezifischen Werte für Koeffizienten habe, wie würde ich die Nullwahrscheinlichkeitsverteilung erzeugen?
tmldwn
Eine zusammengesetzte Nullhypothese ist eine ganze Reihe möglicher Wahrscheinlichkeitsmaße.
Andreas Dzemski
Ich habe meine Antwort bearbeitet, um diesen Punkt hervorzuheben.
Andreas Dzemski
2
@tmldwn: Hier hängt die marginale Verteilung der t-Statistik tatsächlich nicht davon ab, wo wir uns in der Null befinden. Wenn Sie dies schwer zu verstehen finden, empfehle ich Ihnen, die Ableitung der Verteilung der t-Statistik sorgfältig durchzugehen. Beachten Sie, dass die t-Statistik vom LS-Schätzer abhängt. In gewisser Weise wird die Teststatistik automatisch korrekt an die "wahre" Hypothese im Nullraum angepasst (wir müssen uns nicht zu A, B2 äußern, da wir sie nicht zur Berechnung der Teststatistik benötigen).
Andreas Dzemski
1
Diese Antwort ist völlig falsch. Wie in diesem Dokument erläutert, gibt es eine Anova für die gesamte Regression, aber einen T-Test für jeden Koeffizienten: reliawiki.org/index.php/…
Josh
0

Sie können für die anderen Variablen dieselben Annahmen treffen wie für X1. Die ANOVA-Tabelle der Regression enthält spezifische Informationen zu jeder Variablensignifikanz und auch zur Gesamtsignifikanz. In Bezug auf die Regressionsanalyse impliziert die Akzeptanz der Nullhypothese, dass der Koeffizient der Variablen bei einem bestimmten Signifikanzniveau Null ist.

Wenn Sie einen intuitiveren Aspekt des Problems erlangen möchten, können Sie mehr über das Testen von Hypothesen erfahren.

Logiksucher
quelle