Bedeutung von p-Werten in der Regression

27

Wenn ich in einigen Softwarepaketen (z. B. Mathematica) eine lineare Regression durchführe, werden den einzelnen Parametern im Modell p-Werte zugeordnet. Zum Beispiel haben die Ergebnisse einer linearen Regression, die ein Ergebnis ergibt, einen p-Wert, der mit a assoziiert ist, und einen mit b .ax+bab

  1. Was bedeuten diese p-Werte individuell für diese Parameter?

  2. Gibt es eine allgemeine Möglichkeit, Parameter für ein Regressionsmodell zu berechnen?

  3. Kann der mit jedem Parameter verknüpfte p-Wert für das gesamte Modell zu einem p-Wert kombiniert werden?

Um diese Frage mathematisch zu halten, suche ich nur die Interpretation von p-Werten in Bezug auf Wahrscheinlichkeiten.

Henry B.
quelle
Gavins Antwort auf die mit @cardinal verknüpfte Frage sagt es auch.
JM ist kein Statistiker
6
@zyx, die Fragen des OP sind nicht weiter fortgeschritten. Dies sind sehr häufige Fragen, für die meiner Meinung nach stats.SE besser geeignet ist --- und auf die die Teilnehmer dort auch besser abgestimmt sind. Math.SE und MO sind beide hervorragende Ressourcen für Wahrscheinlichkeitsfragen, für statistische jedoch noch weniger. Die Fragen des OP richten sich viel mehr nach letzterem.
Kardinal
@ Cardinal: Ich verfolge stats.SE seit dem Start der öffentlichen Beta. Von mehr als 4800 Fragen war es mir nicht möglich, eine zu finden , die Punkt 3 aus dem OP fragt oder beantwortet, was seltsam ist, wenn dies eine "sehr häufige" Abfrage ist. Noch habe ich konzeptionell präzise Antworten auf Punkt 1 gesehen, als er einige Male auftauchte. Ich denke, diese Dinge sollten regelmäßig in math.SE und MO gepostet werden, um die Aufmerksamkeit eines größeren Publikums auf sich zu ziehen, und nicht innerhalb von Minuten auf stats.SE migriert werden. Es tut nicht weh, auch nach stat.SE zu fragen, aber letztere in den einzigen Ort zu verwandeln, an dem Statistiken besprochen werden können, ist nicht hilfreich.
Zyx
Es gibt jetzt einen Thread über die Migration von math.SE nach stats.SE in meta.math.SE.
Zyx
(Einige Kommentare, auf die oben verwiesen wurde, gingen bei der Migration verloren. Sie sind in der ursprünglichen math.SE-Veröffentlichung sichtbar, die unten neben den Wörtern "migriert von ..." verlinkt ist.)
zyx

Antworten:

13
  1. Der p-Wert für ist der p-Wert in einem Test der Hypothese " α = 0 " (normalerweise ein 2-seitiger t- Test). Der p-Wert für b ist der p-Wert in einem Test der Hypothese " β = 0 " (üblicherweise auch ein 2-seitiger t- Test) und ebenfalls für beliebige andere Koeffizienten in der Regression. Die Wahrscheinlichkeitsmodelle für diese Tests werden durch das im linearen Regressionsmodell angenommene Modell bestimmt. Für die lineare Regression der kleinsten Quadrate folgt das Paar ( a , b ) einer bivariaten Normalverteilung, die auf den wahren Parameterwerten ( α , β) zentriert istaα=0tbβ=0ta,bα,β), und der Hypothesentest für jeden Koeffizienten ist gleichbedeutend mit dem Test, ob α = 0 (bzw. β = 0 ) auf der Grundlage von Stichproben aus einer geeigneten Normalverteilung [einer Variablen, dh der Verteilung von a oder b allein]. Die Einzelheiten von denen Normalverteilungen erscheinen etwas kompliziert sind und „Freiheitsgrade“ und „Hut Matrizen“ (basierend auf der Notation beinhalten A für einige der Matrizen , die ständig in der Theorie der OLS - Regression erscheinen).tα=0β=0abA^

  2. Ja. Normalerweise wird es durch Maximum Likelihood Estimation durchgeführt (und definiert) . Für die lineare OLS-Regression und eine kleine Anzahl anderer Modelle gibt es genaue Formeln zur Schätzung der Parameter aus den Daten. Für allgemeinere Regressionen sind die Lösungen iterativer und numerischer Natur.

  3. Nicht direkt. Ein p-Wert wird separat für einen Test des gesamten Modells berechnet, d. H. Einen Test der Hypothese, dass alle Koeffizienten (der Variablen, von denen angenommen wird, dass sie tatsächlich variieren), also ohne den Koeffizienten des "konstanten Terms", falls vorhanden eins). Dieser p-Wert kann jedoch normalerweise nicht aus der Kenntnis der p-Werte der Koeffizienten berechnet werden.

Zyx
quelle
2
In Ihrem Punkt (1.) scheint es eine gewisse Verwechslung zwischen einem Parameter und einem Schätzer zu geben . Der Wert ist eher dem Schätzer als dem Parameter zugeordnet, und die Schätzer sind bivariate Normalwerte, nicht die Parameter (die zumindest in der klassischen Statistik als fest gelten). Auch Ihre Kommentare in Punkt (3.) können zu Verwirrung führen, da es durchaus möglich (und durchaus üblich) ist, dass einige der einzelnen p- Werte von Regressionsschätzungen sowohl größer als auch kleiner sind als der gemeinsame p- Wert aus dem entsprechenden F- Test. pppF
Kardinal
@ NRH: Entschuldigung, können Sie Ihren vorherigen Kommentar klären. Ich verfolge es (noch) nicht ganz. :)
Kardinal
@ cardinal: Es scheint genauer zu sein zu sagen, dass ein p-Wert mit einem Hypothesentest verbunden ist. Die Parameter erscheinen in der Nullhypothese des Tests und das Paar (beobachteter Schätzerwert, alternative Hypothese) bestimmt dann einen p-Wert. Die Nullhypothesen sollten mit Parametern wie α = 0 und nicht mit Schätzern a = 0 beschrieben werden, wie dies in der jetzt bearbeiteten ursprünglichen Antwort [nachlässig] geschehen ist (danke, dass Sie auf den Fehler hingewiesen haben). In der Antwort wurde jedoch ausdrücklich die vermeintlich verwirrte oder fehlende Unterscheidung "die Schätzer sind bivariat normal, nicht die Parameter" angegeben.
Zyx
1
Entschuldigung, ich konnte einfach nicht widerstehen. @zyx hat einen Kommentar zum ursprünglichen Beitrag auf math.SE abgegeben, der Antworten auf stat.SE oft ungenau enthielt. Ich finde, dass viele Antworten ziemlich genau sind, obwohl sie manchmal mathematisch ungenau sind. Das liegt in der Natur der Sache. Statistische Fragen und Antworten lassen sich nicht immer auf präzise mathematische Aussagen reduzieren. Besonders nicht die schwierigen. Die hier gegebene Antwort ist jedoch meiner Meinung nach weder besonders genau noch präzise.
NRH
3
Ich denke, es wäre schön, wenn jemand, der das Abstimmungsergebnis herabgestimmt hat, einen erläuternden Kommentar abgeben würde.
Kardinal
1

zur ersten frage: das hängt von der software deiner wahl ab. Es gibt tatsächlich zwei Arten von p-Werten, die in diesen Szenarien häufig verwendet werden. Beide basieren in der Regel auf Likelihood-Ratio-Tests (es gibt andere, aber diese sind in der Regel äquivalent oder unterscheiden sich in ihren Ergebnissen zumindest wenig).

Es ist wichtig zu wissen, dass alle diese p-Werte von (einem Teil) der übrigen Parameter abhängig sind . Das bedeutet: Unter der Annahme, dass (einige) der anderen Parameterschätzungen korrekt sind, testen Sie, ob der Koeffizient für einen Parameter Null ist oder nicht. Normalerweise lautet die Nullhypothese für diese Tests, dass der Koeffizient Null ist. Wenn Sie also einen kleinen p-Wert haben, bedeutet dies (abhängig vom Wert der anderen Koeffizienten), dass es unwahrscheinlich ist, dass der Koeffizient selbst Null ist.

Tests vom Typ I testen die Nullheit jedes Koeffizienten unter der Bedingung, dass der Wert der Koeffizienten im Modell (von links nach rechts) vor ihm liegt. Prüfungen vom Typ III (Grenzprüfungen), Prüfung auf die Nullstelle jedes Koeffizienten, abhängig vom Wert aller anderen Koeffizienten.

Verschiedene Tools stellen standardmäßig unterschiedliche p-Werte zur Verfügung. In der Regel haben Sie jedoch Möglichkeiten, beide Werte zu erhalten. Wenn Sie außerhalb der Statistik keinen Grund haben, die Parameter in einer bestimmten Reihenfolge anzugeben, sind Sie im Allgemeinen an den Testergebnissen des Typs III interessiert.

Schließlich können Sie mit einem Likelihood-Ratio-Test (der sich eher auf Ihre letzte Frage bezieht) immer einen Test für eine Reihe von Koeffizienten erstellen, die vom Rest abhängig sind. Dies ist der richtige Weg, wenn Sie mehrere Koeffizienten gleichzeitig auf Null testen möchten (andernfalls treten unangenehme Probleme mit mehreren Tests auf).

Nick Sabbe
quelle
Könnten Sie bitte die von Ihnen erwähnte Konditionalität näher erläutern? In der univariaten Regression mit Prädiktoren und einem Intercept, eine Hypothese auf einer lineare Kombination von Parametern der Prüfung ψ = c ' β Verwendungen Teststatistik t = ψ - ψ 0pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
caracal
Hier ψ = c ' β , wobei β der Vektor der Parameterschätzungen ist und c ein Vektor von Koeffizienten. X ist die Designmatrix und σ ist der Reststandardfehler | | e | | 2 / ( n - ( p + 1 ) ) , wobei e der Vektor der Residuen aus dem gelieferten Modell ist. Für den Test eines einzelnen Parameters j , der 0 ist, ist c das jψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcj-te Einheitsvektor und . Ich sehe nicht, wo Modellvergleiche eine Rolle für t spielen . ψ0=0t
caracal
Das Wesentliche wird hier zum Beispiel festgehalten . Denken Sie daran, dass Anova nur ein Sonderfall der Regression ist. Grundsätzlich gilt: Wenn Sie in einem Modell mit oder ohne Variable B einen Test auf Null (den Koeffizienten von) Variable A durchführen, erhalten Sie möglicherweise unterschiedliche Ergebnisse. Das Ergebnis ist also abhängig von Ihrem Modell, den Daten (auch für die Werte der Variablen B) und damit von den Koeffizienten nicht in Ihrem Test, sondern in Ihrem Modell. Diese Idee in der Mathematik zu finden, kann etwas schwieriger sein :-)
Nick Sabbe
p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
Der kontinuierliche Fall sollte einer dichotomen 0-1-codierten Variablen vollständig entsprechen.
Nick Sabbe