In der Statistik machen wir lineare Regressionen, deren Anfang. Im Allgemeinen wissen wir, dass je höher besser ist. Aber gibt es jemals ein Szenario, in dem ein hohes ein unbrauchbares Modell wäre?R 2
regression
r-squared
Richard Hardy
quelle
quelle
Antworten:
Ja. Die Kriterien für die Bewertung eines statistischen Modells hängen vom jeweiligen Problem ab und sind keine mechanischen Funktionen von oder statistischer Signifikanz (obwohl sie von Bedeutung sind). Die relevante Frage lautet: "Hilft Ihnen das Modell, die Daten zu verstehen?"R2
Sinnlose Regressionen mit hohemR2
Der einfachste Weg, um einen hohen Wert zu erreichen, besteht darin, ein Äquivalent zum Regressieren der rechten Schuhe auf die linken Schuhe zu machen. Sagen Sie mir die Größe Ihres rechten Schuhs, und ich kann die Größe Ihres linken Schuhs mit großer Genauigkeit vorhersagen. Riesige ! Was für ein großartiges statistisches Modell! Außer es bedeutet doof poo. Sie können ein gutes indem Sie dieselbe Variable auf die linke und rechte Seite einer Regression setzen, aber diese große Regression wäre mit ziemlicher Sicherheit nutzlos.R 2 R 2 R 2R2 R2 R2 R2
Es gibt andere Fälle, in denen das Einfügen einer Variablen auf der rechten Seite konzeptionell falsch ist (auch wenn dadurch ausgelöst wird ). Nehmen wir an, Sie versuchen zu schätzen, ob eine Minderheit diskriminiert wird und mit geringerer Wahrscheinlichkeit einen Arbeitsplatz bekommt. Sie sollten nicht kontrollieren, ob das Unternehmen nach der Bewerbung einen Rückruf gab, da die geringere Wahrscheinlichkeit, auf Bewerbungen von Minderheiten zu reagieren, der Kanal sein kann, über den Diskriminierung auftritt! Das Hinzufügen des falschen Steuerelements kann Ihre Regression bedeutungslos machen.R2
Sie können R 2 jederzeit erhöhen, indem Sie weitere Regressoren hinzufügen! Ich kann weiterhin Regressoren auf der rechten Seite hinzufügen, bis ich das R 2 bekomme, das ich mag. Um das Arbeitseinkommen vorherzusagen, könnte ich zu einem bestimmten Zeitpunkt die Kontrollen hinzufügen machen keinen Sinn mehr, aber R 2 steigt weiter. Das Hinzufügen von allem als Regressor wird als "Spülbecken" -Regression bezeichnet. Sie können hoch ansteigen R 2 aber massiv die Daten Überanpassung kann: Ihr Modell perfekt die Probe , die das Modell sagt voraus abzuschätzen (hat eine hohe RR2 R2 R2 R2 ) aber das geschätzte Modell versagt schrecklich auf neuen Daten.R2
Dieselbe Idee kann bei der Polynomkurvenanpassung auftreten. Gib mir zufällige Daten, und ich kann wahrscheinlich großartiges indem ich ein 200-Grad-Polynom anpasse. Bei neuen Daten würde das geschätzte Polynom aufgrund einer Überanpassung nicht funktionieren. Wiederum ist ein hohes R 2 für das geschätzte Modell, aber ein geschätztes Modell, unbrauchbar.R2 R2
Punkt (3-4) ist der Grund, warum wir angepasst haben , was eine gewisse Strafe für das Hinzufügen von mehr Regressoren darstellt, aber angepasstes R 2 kann typischerweise immer noch durch Überanpassung der Daten entsaftet werden. Es hat auch die wunderbar unsinnige Eigenschaft, dass es negativ werden kann.R2 R2
quelle
"Höher ist besser" ist eine schlechte Faustregel für R-Quadrat.
Don Morrison hat vor ein paar Jahren einige berühmte Artikel geschrieben, die belegen, dass R-Quadrate gegen Null je nach Branche sowohl umsetzbar als auch rentabel sein können. Beispielsweise können bei der Vorhersage der Antwort auf ein Zeitschriftenabonnement, das an 10 Millionen Haushalte gesendet wird, R-Quadrate im niedrigen einstelligen Bereich rentable Kampagnen (auf ROI-Basis) erzeugen, wenn das Mailing auf den ersten zwei oder drei Dezilen der Antwort basiert Wahrscheinlichkeit.
Ein anderer Soziologe (dessen Name mir entgeht) segmentierte R-Quadrate nach Datentyp, wobei er bemerkte, dass R-Quadrate im Bereich von 10-20% die Norm waren, während für Geschäftsdaten R-Quadrate im Bereich von 40-60% waren zu erwarten. Sie fuhren fort zu bemerken, dass R-Quadrate von 80-90% oder mehr wahrscheinlich gegen fundamentale Regressionsannahmen verstoßen. Dieser Autor hatte jedoch keine Erfahrung mit Marketing-Mix, Zeitreihendaten oder Modellen, die einen vollständigen Satz von "kausalen" Merkmalen enthalten (z. B. die klassischen 4 "Ps" von Preis, Werbung, Ort und Produkt), die R- Quadrate nähern sich 100%.
Das heißt, selbst vernünftige Benchmarking-Faustregeln wie diese sind nicht besonders hilfreich, wenn es um den technischen Analphabet geht, dessen erste Frage nach einem Vorhersagemodell immer lautet: "Was ist das R-Quadrat?"
quelle
Die anderen Antworten bieten große theoretische Erklärungen der vielen Möglichkeiten , R-Quadrat - Werte festgelegt werden kann / gefälschte / irreführende / etc .. Hier ist ein Hands-on - Demonstration , die immer bei mir geblieben ist, codiert in
r
:Dies kann R-Quadrat-Werte> 0,90 liefern. Fügen Sie genügend Regressoren hinzu, und auch Zufallswerte können Zufallswerte "vorhersagen".
quelle
set.seed(1)
undset.seed(2)
.