Ich bin wirklich verwirrt über den Bedeutungsunterschied im Zusammenhang mit der linearen Regression der folgenden Begriffe:
- F-Statistik
- R im Quadrat
- Reststandardfehler
Ich habe diesen Webstie gefunden der mir einen guten Einblick in die verschiedenen Begriffe der linearen Regression gegeben hat. Die oben genannten Begriffe sehen jedoch ziemlich ähnlich aus (soweit ich das verstehe). Ich werde zitieren, was ich gelesen und was mich verwirrt hat:
Der Reststandardfehler ist ein Maß für die Qualität einer linearen Regressionsanpassung. Der Reststandardfehler ist der durchschnittliche Betrag, um den die Antwort (dist) von der tatsächlichen Regressionslinie abweicht.
1. Dies ist also eigentlich der mittlere Abstand der beobachteten Werte von der lm-Linie?
Die R-Quadrat-Statistik gibt an, wie gut das Modell mit den tatsächlichen Daten übereinstimmt.
2. Jetzt bin ich verwirrt, denn wenn RSE uns sagt, wie weit unsere beobachteten Punkte von der Regressionslinie abweichen, sagt uns ein niedriger RSE tatsächlich: "Ihr Modell passt gut basierend auf den beobachteten Datenpunkten" -> also wie gut unsere Modelle passen, also was ist der Unterschied zwischen R-Quadrat und RSE?
Die F-Statistik ist ein guter Indikator dafür, ob eine Beziehung zwischen unserem Prädiktor und den Antwortvariablen besteht.
3. Stimmt es, dass wir einen F-Wert haben können, der auf eine starke Beziehung hinweist, die NICHT LINEAR ist, so dass unser RSE hoch und unser quadratisches R niedrig ist?
quelle
Antworten:
Der beste Weg, diese Begriffe zu verstehen, ist eine manuelle Regressionsberechnung. Ich habe zwei eng verwandte Antworten ( hier und hier ) geschrieben, die Ihnen jedoch möglicherweise nicht helfen, Ihren speziellen Fall zu verstehen. Aber lesen Sie sie trotzdem durch. Vielleicht helfen sie Ihnen auch dabei, diese Begriffe besser zu verstehen.
In einer Regression (oder ANOVA) bauen wir ein Modell auf, das auf einem Beispieldatensatz basiert, mit dem wir die Ergebnisse einer interessierenden Population vorhersagen können. Dazu werden die folgenden drei Komponenten in einer einfachen linearen Regression berechnet, aus der die anderen Komponenten berechnet werden können, z. B. die mittleren Quadrate, der F-Wert, derR2 (auch der angepasste R2 ) und der Reststandardfehler ( R SE ):
Jeder von ihnen bewertet, wie gut das Modell die Daten beschreibt, und gibt die Summe der quadratischen Abstände von den Datenpunkten zum angepassten Modell an (dargestellt als rote Linien in der Darstellung unten).
DieSSt o t a l beurteilen , wie gut die Mittel passen die Daten. Warum das gemein? Da der Mittelwert das einfachste Modell ist, das wir anpassen können, dient er als Modell, mit dem die Regressionslinie der kleinsten Quadrate verglichen wird. Dieses Diagramm unter Verwendung des
cars
Datensatzes veranschaulicht Folgendes:DieSSr e s i du a l beurteilen , wie gut die Regressionslinie der Daten paßt.
DasSSm o de l vergleicht, um wie viel besser die Regressionsgerade mit dem Mittelwert verglichen wird (dh der Differenz zwischen dem SSt o t a l und dem SSr e s i du a l ).
Um Ihre Fragen zu beantworten, berechnen wir zunächst die Begriffe, die Sie verstehen möchten, beginnend mit Modell und Ausgabe als Referenz:
Die Quadratsummen sind die quadratischen Abstände der einzelnen Datenpunkte zum Modell:
Die mittleren Quadrate sind die durch die Freiheitsgrade gemittelten Quadratsummen:
Meine Antworten auf Ihre Fragen:
Q1:
Q2:
Q3:
Ihre dritte Frage ist etwas schwer zu verstehen, aber ich stimme dem von Ihnen angegebenen Zitat zu.
quelle
(2) Sie verstehen es richtig, Sie haben es nur schwer mit dem Konzept.
DasR2 value gibt an, wie gut das Modell alle Daten berücksichtigt. Es kann nur Werte zwischen 0 und 1 annehmen. Es ist der Prozentsatz der Abweichung der Punkte im Datensatz, den das Modell erklären kann.
Die RSE ist eher ein Deskriptor für die Abweichung von dem Modell, das die Originaldaten darstellen. Also, dieR2 sagt: "Das Modell macht das gut, wenn es darum geht, die präsentierten Daten zu erklären." Das RSE sagt: "Als die Daten zugeordnet wurden, erwarteten wir, dass sie hier sind, aber hier ist, wo sie tatsächlich waren." Sie sind sich sehr ähnlich, werden jedoch auf unterschiedliche Weise zur Validierung verwendet.
quelle
Nur um das zu ergänzen, was Chris oben geantwortet hat:
Die F-Statistik ist die Teilung des Modellmittelquadrats und des Restmittelquadrats. Software wie Stata liefert nach dem Anpassen eines Regressionsmodells auch den mit der F-Statistik verbundenen p-Wert. Auf diese Weise können Sie die Nullhypothese testen, dass die Koeffizienten Ihres Modells Null sind. Man könnte es sich als "statistische Signifikanz des gesamten Modells" vorstellen.
quelle