Ich habe eine Regression mit 4 Variablen durchgeführt, und alle sind sehr statistisch signifikant, mit T-Werten und (ich sage weil es irrelevant zu sein scheint, die Dezimalstellen einzubeziehen), die sehr hoch und eindeutig signifikant sind. Aber dann ist der nur .2284. Interpretiere ich die t-Werte hier falsch, um etwas zu bedeuten, was sie nicht sind? Meine erste Reaktion, als ich die t-Werte sah, war, dass das ziemlich hoch sein würde, aber vielleicht ist das ein hohes ?
17
Antworten:
Diet Werte und R2 werden verwendet, um sehr unterschiedliche Dinge zu beurteilen. Die t Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der βich zu beurteilen , aber R2 misst den Betrag der Variation Ihrer Antwortvariablen, der durch Ihre Kovariaten erklärt wird. Angenommen, Sie schätzen ein Regressionsmodell mit n Beobachtungen,
woϵich∼ich . ich . dN( 0 , σ2) , i = 1 , . . . , n .
Großet Werte (in absoluten Werten) führen dazu, dass Sie die Nullhypothese, dass βich= 0 , ablehnen . Sie können also sicher sein, dass Sie das Vorzeichen des Koeffizienten richtig geschätzt haben. Auch wenn | t | > 4 und Sie haben n > 5 , dann liegt 0 nicht in einem 99% -Konfidenzintervall für den Koeffizienten. Der t Wert für einen Koeffizienten βich ist die Differenz zwischen der Schätzung βich^ und 0, die durch den Standardfehler s e { βich^} normiert ist .
Das ist einfach die Schätzung geteilt durch ein Maß für ihre Variabilität. Wenn Sie einen ausreichend großen Datensatz haben, haben Sie immer statistisch signifikante (große)t Werte. Dies bedeutet nicht zwangsläufig, dass Ihre Kovariaten einen Großteil der Variation in der Antwortvariablen erklären.
Wie bereits erwähnt, misstR2 den Betrag der Variation in Ihrer Antwortvariablen, der durch Ihre abhängigen Variablen erklärt wird. Weitere Informationen zu R2 finden Sie auf Wikipedia . In Ihrem Fall haben Sie anscheinend einen ausreichend großen Datensatz, um die βich genau abzuschätzen , aber Ihre Kovariaten können die Antwortwerte schlecht erklären und / oder vorhersagen.
quelle
Um das Gleiche wie caburke zu sagen, aber einfacher zu sein, Sie sind sehr zuversichtlich, dass die durchschnittliche Antwort, die durch Ihre Variablen verursacht wird, nicht Null ist. Aber es gibt viele andere Dinge, die Sie nicht in der Regression haben, die die Reaktion veranlassen, herumzuspringen.
quelle
Könnte es sein, dass Ihre Prädiktoren in Bezug auf Ihre Antwortvariable zwar linear tendieren (die Steigung unterscheidet sich erheblich von Null), was die t-Werte signifikant macht, aber das Quadrat R niedrig ist, weil die Fehler groß sind, was bedeutet, dass die Variabilität in Ihre Daten sind groß und daher passt Ihr Regressionsmodell nicht gut (Vorhersagen sind nicht so genau)?
Nur meine 2 Cent.
Vielleicht kann dieser Beitrag helfen: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- Werte
quelle
Einige Antworten sind nah, aber immer noch falsch.
"Die t-Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der βi zu beurteilen" ist derjenige, der mich am meisten beschäftigt.
Der T-Wert ist lediglich ein Hinweis auf die Wahrscheinlichkeit eines zufälligen Auftretens. Groß bedeutet unwahrscheinlich. Klein bedeutet sehr wahrscheinlich. Positiv und Negativ spielen für die Wahrscheinlichkeitsinterpretation keine Rolle.
"R2 misst das Ausmaß der Variation in Ihrer Antwortvariablen, die durch Ihre Kovariaten erklärt wird" ist korrekt.
(Ich hätte es kommentiert, bin aber von dieser Plattform noch nicht zugelassen.)
quelle
Die einzige Möglichkeit, mit einem kleinen quadratischen R umzugehen, ist die folgende:
Wie viele Kovariaten haben Sie für Ihre Modellschätzung verwendet? Wenn mehr als 1 wie in Ihrem Fall das Problem der Multikolinearität der Kovariaten behandelt oder einfach die Regression erneut und diesmal ohne die Konstante, die als Beta-Null bezeichnet wird, ausgeführt wird.
Wenn das Problem weiterhin besteht, führen Sie eine schrittweise Regression durch und wählen Sie das Modell mit einem hohen quadratischen R aus. Aber was ich Ihnen nicht empfehlen kann, weil es Voreingenommenheit in den Kovariaten hervorruft
quelle