Ich habe einige Daten, die entlang einer ungefähr linearen Linie passen:
Wenn ich eine lineare Regression dieser Werte durchführe, erhalte ich eine lineare Gleichung:
In einer idealen Welt, die Gleichung sollte seine .
Offensichtlich liegen meine linearen Werte nahe an diesem Ideal, aber nicht genau. Meine Frage ist, wie kann ich feststellen, ob dieses Ergebnis statistisch signifikant ist?
Unterscheidet sich der Wert von 0,997 erheblich von 1? Unterscheidet sich -0.01 signifikant von 0? Oder sind sie statistisch gleich und ich kann daraus schließen, dass mit einem angemessenen Konfidenzniveau ist?
Was ist ein guter statistischer Test, den ich verwenden kann?
Vielen Dank
Antworten:
Diese Art von Situation kann durch einen Standard- F-Test für verschachtelte Modelle behandelt werden . Da Sie beide Parameter gegen ein Nullmodell mit festen Parametern testen möchten, lauten Ihre Hypothesen:
Der F-Test beinhaltet die Anpassung beider Modelle und den Vergleich ihrer verbleibenden Quadratsumme. Diese sind:
Die Teststatistik lautet:
Der entsprechende p-Wert ist:
Implementierung in R: Angenommen, Ihre Daten befinden sich in einem Datenrahmen
DATA
mit den Variableny
undx
. Der F-Test kann manuell mit dem folgenden Code durchgeführt werden. In den simulierten Scheindaten, die ich verwendet habe, können Sie sehen, dass die geschätzten Koeffizienten nahe an denjenigen in der Nullhypothese liegen, und der p-Wert des Tests zeigt keinen signifikanten Beweis, um die Nullhypothese zu verfälschen, dass die wahre Regressionsfunktion die ist Identitätsfunktion.Die
summary
Ausgabe undplot
für diese Daten sehen folgendermaßen aus:quelle
sd = 2/sqrt(1+abs(x))
Hier ist eine coole grafische Methode, die ich aus Julian Faraways ausgezeichnetem Buch "Linear Models With R (Second Edition)" entnommen habe. Es sind simultane 95% -Konfidenzintervalle für den Achsenabschnitt und die Steigung, die als Ellipse dargestellt sind.
Zur Veranschaulichung habe ich 500 Beobachtungen mit einer Variablen "x" mit einer N-Verteilung (Mittelwert = 10, sd = 5) und einer Variablen "y" mit einer N-Verteilung (Mittelwert = x, sd = 2) erstellt. Das ergibt eine Korrelation von etwas mehr als 0,9, die möglicherweise nicht ganz so eng ist wie Ihre Daten.
Sie können die Ellipse überprüfen, um festzustellen, ob der Punkt (Achsenabschnitt = 0, Steigung = 1) innerhalb oder außerhalb dieses gleichzeitigen Konfidenzintervalls liegt.
Erstellt am 21.01.2019 durch das Paket reprex (v0.2.1)
quelle
Sie könnten die Koeffizienten mit n Bootstrap-Samples berechnen. Dies wird wahrscheinlich zu normalverteilten Koeffizientenwerten führen (zentraler Grenzwertsatz). Damit könnten Sie dann ein (zB 95%) Konfidenzintervall mit t-Werten (n-1 Freiheitsgrade) um den Mittelwert konstruieren. Wenn Ihr CI nicht 1 (0) enthält, ist es statistisch signifikant anders oder genauer: Sie können die Nullhypothese einer gleichen Steigung ablehnen.
quelle
quelle
Sie sollten eine lineare Regression anpassen und die 95% -Konfidenzintervalle für die beiden Parameter überprüfen. Wenn der CI der Steigung 1 enthält und der CI des Offsets 0 enthält, ist der zweiseitige Test ungefähr unwesentlich. auf der (95%) ^ 2-Ebene - da wir zwei separate Tests verwenden, steigt das Typ-I-Risiko.
Verwendung von R:
oder du verwendest
und berechnen Sie die 2 Sigma-Intervalle selbst.
quelle