Wenn ich in einigen Softwarepaketen (z. B. Mathematica) eine lineare Regression durchführe, werden den einzelnen Parametern im Modell p-Werte zugeordnet. Zum Beispiel haben die Ergebnisse einer linearen Regression, die ein Ergebnis ergibt, einen p-Wert, der mit a assoziiert ist, und einen mit b .
Was bedeuten diese p-Werte individuell für diese Parameter?
Gibt es eine allgemeine Möglichkeit, Parameter für ein Regressionsmodell zu berechnen?
Kann der mit jedem Parameter verknüpfte p-Wert für das gesamte Modell zu einem p-Wert kombiniert werden?
Um diese Frage mathematisch zu halten, suche ich nur die Interpretation von p-Werten in Bezug auf Wahrscheinlichkeiten.
probability
regression
Henry B.
quelle
quelle
Antworten:
Der p-Wert für ist der p-Wert in einem Test der Hypothese " α = 0 " (normalerweise ein 2-seitiger t- Test). Der p-Wert für b ist der p-Wert in einem Test der Hypothese " β = 0 " (üblicherweise auch ein 2-seitiger t- Test) und ebenfalls für beliebige andere Koeffizienten in der Regression. Die Wahrscheinlichkeitsmodelle für diese Tests werden durch das im linearen Regressionsmodell angenommene Modell bestimmt. Für die lineare Regression der kleinsten Quadrate folgt das Paar ( a , b ) einer bivariaten Normalverteilung, die auf den wahren Parameterwerten ( α , β) zentriert ista α=0 t b β=0 t a,b α,β ), und der Hypothesentest für jeden Koeffizienten ist gleichbedeutend mit dem Test, ob α = 0 (bzw. β = 0 ) auf der Grundlage von Stichproben aus einer geeigneten Normalverteilung [einer Variablen, dh der Verteilung von a oder b allein]. Die Einzelheiten von denen Normalverteilungen erscheinen etwas kompliziert sind und „Freiheitsgrade“ und „Hut Matrizen“ (basierend auf der Notation beinhalten A für einige der Matrizen , die ständig in der Theorie der OLS - Regression erscheinen).t α=0 β=0 a b A^
Ja. Normalerweise wird es durch Maximum Likelihood Estimation durchgeführt (und definiert) . Für die lineare OLS-Regression und eine kleine Anzahl anderer Modelle gibt es genaue Formeln zur Schätzung der Parameter aus den Daten. Für allgemeinere Regressionen sind die Lösungen iterativer und numerischer Natur.
Nicht direkt. Ein p-Wert wird separat für einen Test des gesamten Modells berechnet, d. H. Einen Test der Hypothese, dass alle Koeffizienten (der Variablen, von denen angenommen wird, dass sie tatsächlich variieren), also ohne den Koeffizienten des "konstanten Terms", falls vorhanden eins). Dieser p-Wert kann jedoch normalerweise nicht aus der Kenntnis der p-Werte der Koeffizienten berechnet werden.
quelle
zur ersten frage: das hängt von der software deiner wahl ab. Es gibt tatsächlich zwei Arten von p-Werten, die in diesen Szenarien häufig verwendet werden. Beide basieren in der Regel auf Likelihood-Ratio-Tests (es gibt andere, aber diese sind in der Regel äquivalent oder unterscheiden sich in ihren Ergebnissen zumindest wenig).
Es ist wichtig zu wissen, dass alle diese p-Werte von (einem Teil) der übrigen Parameter abhängig sind . Das bedeutet: Unter der Annahme, dass (einige) der anderen Parameterschätzungen korrekt sind, testen Sie, ob der Koeffizient für einen Parameter Null ist oder nicht. Normalerweise lautet die Nullhypothese für diese Tests, dass der Koeffizient Null ist. Wenn Sie also einen kleinen p-Wert haben, bedeutet dies (abhängig vom Wert der anderen Koeffizienten), dass es unwahrscheinlich ist, dass der Koeffizient selbst Null ist.
Tests vom Typ I testen die Nullheit jedes Koeffizienten unter der Bedingung, dass der Wert der Koeffizienten im Modell (von links nach rechts) vor ihm liegt. Prüfungen vom Typ III (Grenzprüfungen), Prüfung auf die Nullstelle jedes Koeffizienten, abhängig vom Wert aller anderen Koeffizienten.
Verschiedene Tools stellen standardmäßig unterschiedliche p-Werte zur Verfügung. In der Regel haben Sie jedoch Möglichkeiten, beide Werte zu erhalten. Wenn Sie außerhalb der Statistik keinen Grund haben, die Parameter in einer bestimmten Reihenfolge anzugeben, sind Sie im Allgemeinen an den Testergebnissen des Typs III interessiert.
Schließlich können Sie mit einem Likelihood-Ratio-Test (der sich eher auf Ihre letzte Frage bezieht) immer einen Test für eine Reihe von Koeffizienten erstellen, die vom Rest abhängig sind. Dies ist der richtige Weg, wenn Sie mehrere Koeffizienten gleichzeitig auf Null testen möchten (andernfalls treten unangenehme Probleme mit mehreren Tests auf).
quelle