Ich habe einige Vorlesungsnotizen von Cosma Shalizi durchgesehen (insbesondere Abschnitt 2.1.1 der zweiten Vorlesung ) und wurde daran erinnert, dass Sie einen sehr niedrigen Wert erhalten können, selbst wenn Sie ein vollständig lineares Modell haben.
Um Shalizis Beispiel zu paraphrasieren: Angenommen, Sie haben ein Modell , wobei bekannt ist. Dann ist und der Betrag der erklärten Varianz ist Also ist R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Dies geht zu 0 als \ Var [X] \ rightarrow 0 und zu 1 als \ Var [X] \ rightarrow \ infty .a
Umgekehrt können Sie einen hohen auch wenn Ihr Modell merklich nicht linear ist. (Hat jemand spontan ein gutes Beispiel?)
Wann ist eine nützliche Statistik und wann sollte sie ignoriert werden?
quelle
Antworten:
Betrachten Sie zur Beantwortung der ersten Frage das Modell
mit iid von mittlerer Null und endlicher Varianz. Wenn der Bereich von (als fest oder zufällig angesehen) zunimmt, geht zu 1. Wenn jedoch die Varianz von klein ist (um 1 oder weniger), sind die Daten "merklich nicht linear". In den Plots ist .ε X R2 ε var(ε)=1
Ein einfacher Weg, um ein kleines besteht darin, die unabhängigen Variablen in enge Bereiche aufzuteilen. Die Regression (unter Verwendung genau desselben Modells ) in jedem Bereich hat einen niedrigen selbst wenn die auf allen Daten basierende vollständige Regression einen hohen . Das Nachdenken über diese Situation ist eine informative Übung und eine gute Vorbereitung auf die zweite Frage.R2 R2 R2
In beiden folgenden Darstellungen werden die gleichen Daten verwendet. Das für die vollständige Regression beträgt 0,86. Die für die Scheiben (mit einer Breite von 1/2 von -5/2 bis 5/2) sind .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, von links nach rechts lesend. Wenn überhaupt, werden die Passungen in der aufgeschnittenen Situation besser , weil die 10 getrennten Linien innerhalb ihrer engen Bereiche enger mit den Daten übereinstimmen können. Obwohl das für alle Schichten weit unter dem vollen , hat sich weder die Stärke der Beziehung, die Linearität noch irgendein Aspekt der Daten (mit Ausnahme des Bereichs von der für die Regression verwendet wird) geändert.R2 R2 R2 R2 X
(Man könnte einwenden, dass diese Aufteilungsprozedur die Verteilung von . Das stimmt, aber es entspricht dennoch der am häufigsten verwendeten Verwendung von in der Festeffektmodellierung und zeigt, inwieweit uns über die Varianz von in der Situation mit zufälligen Effekten. Insbesondere wenn gezwungen ist, innerhalb eines kleineren Intervalls seines natürlichen Bereichs zu variieren, fällt normalerweise ab.)X R2 R2 X X R2
Das Grundproblem bei ist, dass es von zu vielen Dingen abhängt (auch wenn sie in multipler Regression angepasst werden), insbesondere aber von der Varianz der unabhängigen Variablen und der Varianz der Residuen. Normalerweise sagt es nichts über "Linearität" oder "Stärke der Beziehung" oder sogar "Güte der Anpassung" aus, um eine Sequenz von Modellen zu vergleichen.R2
Meistens finden Sie eine bessere Statistik als . Für die Modellauswahl können Sie auf AIC und BIC schauen. Betrachten Sie die Varianz der Residuen, um die Angemessenheit eines Modells auszudrücken.R2
Dies bringt uns schließlich zur zweiten Frage . Eine Situation, in der eine Verwendung finden könnte, besteht darin, dass die unabhängigen Variablen auf Standardwerte gesetzt werden und im Wesentlichen den Effekt ihrer Varianz steuern. Dann ist wirklich ein Proxy für die Varianz der Residuen, entsprechend standardisiert.R2 1−R2
quelle
Ihr Beispiel gilt nur, wenn die Variable im Modell enthalten sein soll . Es trifft sicherlich nicht zu, wenn man die üblichen Schätzungen der kleinsten Quadrate verwendet. Um dies zu sehen, beachten Sie, dass , wenn wir schätzen der kleinsten Quadrate in Ihrem Beispiel, erhalten wir:X a
Jetzt ist der zweite Term immer kleiner als (gleich im Limit), sodass wir aus der Variablen eine Obergrenze für den Beitrag zu :1 1 R2 X
Und wenn , werden wir tatsächlich as (weil der Zähler auf Null geht, aber der Nenner in ). Außerdem kann es vorkommen, dass Wert zwischen und konvergiert, je nachdem, wie schnell die beiden Terme auseinanderlaufen. Nun wird der obige Term im Allgemeinen schneller auseinander gehen als wenn im Modell sein soll, und langsamer, wenn nicht im Modell sein soll. In beiden Fällen geht in die richtigen Richtungen.(1N∑Ni=1XiYi)2→∞ R2→0 s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
Beachten Sie auch, dass wir für einen endlichen Datensatz (dh einen realen) niemals sei denn, alle Fehler sind genau Null. Dies zeigt im Grunde genommen, dass eher ein relatives als ein absolutes Maß ist. Denn wenn gleich , können wir immer ein besser passendes Modell finden. Dies ist wahrscheinlich der "gefährliche" Aspekt von , da es so skaliert ist, dass es zwischen und Es scheint, als könnten wir es in einem absoluten Sinne interpretieren.R2=1 R2 R2 1 R2 0 1
Es ist wahrscheinlich nützlicher zu sehen, wie schnell fällt, wenn Sie Variablen zum Modell hinzufügen. Und nicht zuletzt sollte es bei der Variablenauswahl nicht ignoriert werden, da effektiv eine ausreichende Statistik für die Variablenauswahl ist - es enthält alle Informationen zur Variablenauswahl, die in den Daten enthalten sind. Das Einzige, was benötigt wird, ist die Auswahl des Abfalls in der "Anpassen der Fehler" entspricht - was normalerweise von der Stichprobengröße und der Anzahl der Variablen abhängt.R2 R2 R2
quelle
Wenn ich ein Beispiel hinzufügen kann, wann gefährlich ist. Vor vielen Jahren habe ich an biometrischen Daten gearbeitet, und als ich jung und dumm war, war ich erfreut, einige statistisch signifikante Werte für meine ausgefallenen Regressionen gefunden zu haben, die ich mit schrittweisen Funktionen konstruiert hatte. Erst als ich nach meiner Präsentation vor einem großen internationalen Publikum zurückblickte, wurde mir klar, dass angesichts der massiven Varianz der Daten - kombiniert mit der möglichen schlechten Repräsentation der Stichprobe in Bezug auf die Bevölkerung - ein von 0,02 absolut bedeutungslos war auch wenn es "statistisch signifikant" war ...R2 R2 R2
Wer mit Statistiken arbeitet, muss die Daten verstehen!
quelle
Wenn Sie einen einzelnen Prädiktor haben, wird genau als der Anteil der Variation in interpretiert, der durch die lineare Beziehung zu . Diese Interpretation muss beachtet werden, wenn der Wert von .R2 Y X R2
Sie können ein großes aus einer nichtlinearen Beziehung nur dann erhalten, wenn die Beziehung nahezu linear ist. Angenommen, wobei und . Wenn Sie die Berechnung vonR2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
Sie werden feststellen, dass es bei (ich habe dies nur durch Simulation angenähert), obwohl die Beziehung eindeutig nicht linear ist. Der Grund ist, dass über das Intervall einer linearen Funktion sehr ähnlich sieht ..914 eX (2,3)
quelle
Eine Situation , die Sie wollen würden , vermeiden ist multiple Regression, wo das Hinzufügen irrelevant Prädiktorvariablen auf das Modell in einigen Fällen erhöhen können . Dies kann behoben werden, indem stattdessen der angepasste Wert verwendet wird, berechnet alsR2 R2 R2
quelle
Ein gutes Beispiel für ein hohes mit einer nichtlinearen Funktion ist die quadratische Funktion die auf das Intervall . Bei 0 Rauschen hat es kein Quadrat von 1, wenn Sie 3 oder mehr Punkte haben, da diese nicht perfekt auf eine gerade Linie passen. Aber wenn die Auslegungspunkte gleichmäßig auf dem das Sie erhalten, vielleicht überraschend hoch sein. Dies ist möglicherweise nicht der Fall, wenn Sie viele Punkte nahe 0 und viele nahe 1 mit wenig oder nichts in der Mitte haben.R2 y=x2 [0,1] R2 [0,1] R2
In der multiplen Regressionssituation besteht das Problem der Überanpassung. Addiere Variablen und wird immer größer. Das angepasste behebt dies etwas, da es die Anzahl der Parameter berücksichtigt.R2 R2
quelle