Ist nützlich oder gefährlich?

233

Ich habe einige Vorlesungsnotizen von Cosma Shalizi durchgesehen (insbesondere Abschnitt 2.1.1 der zweiten Vorlesung ) und wurde daran erinnert, dass Sie einen sehr niedrigen Wert erhalten können, selbst wenn Sie ein vollständig lineares Modell haben.R2

Um Shalizis Beispiel zu paraphrasieren: Angenommen, Sie haben ein Modell , wobei bekannt ist. Dann ist und der Betrag der erklärten Varianz ist Also ist R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Dies geht zu 0 als \ Var [X] \ rightarrow 0 und zu 1 als \ Var [X] \ rightarrow \ infty .aY=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Umgekehrt können Sie einen hohen R2 auch wenn Ihr Modell merklich nicht linear ist. (Hat jemand spontan ein gutes Beispiel?)

Wann ist R2 eine nützliche Statistik und wann sollte sie ignoriert werden?

raegtin
quelle
5
Bitte beachten Sie den entsprechenden Kommentarthread in einer anderen aktuellen Frage
whuber
36
Ich habe nichts Statistisches zu den ausgezeichneten Antworten hinzuzufügen (va die von @whuber), aber ich denke, die richtige Antwort ist "R-Quadrat: Nützlich und gefährlich". Wie so ziemlich jede Statistik.
Peter Flom
32
Die Antwort auf diese Frage lautet: "Ja"
Fomite
Eine weitere Antwort finden Sie unter stats.stackexchange.com/a/265924/99274 .
Carl
Das Beispiel aus dem Skript ist nicht sehr nützlich, es sei denn, Sie können uns sagen, was ist. Wenn auch eine Konstante ist, ist Ihr Argument falsch, da dann Wenn jedoch nicht konstant ist , bitte stelle gegen für small und sage mir, dass dies linear ist ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Antworten:

264

Betrachten Sie zur Beantwortung der ersten Frage das Modell

Y=X+sin(X)+ε

mit iid von mittlerer Null und endlicher Varianz. Wenn der Bereich von (als fest oder zufällig angesehen) zunimmt, geht zu 1. Wenn jedoch die Varianz von klein ist (um 1 oder weniger), sind die Daten "merklich nicht linear". In den Plots ist .εXR2εvar(ε)=1

Kurze Reichweite von X

Größere Reichweite von X

Ein einfacher Weg, um ein kleines besteht darin, die unabhängigen Variablen in enge Bereiche aufzuteilen. Die Regression (unter Verwendung genau desselben Modells ) in jedem Bereich hat einen niedrigen selbst wenn die auf allen Daten basierende vollständige Regression einen hohen . Das Nachdenken über diese Situation ist eine informative Übung und eine gute Vorbereitung auf die zweite Frage.R2R2R2

In beiden folgenden Darstellungen werden die gleichen Daten verwendet. Das für die vollständige Regression beträgt 0,86. Die für die Scheiben (mit einer Breite von 1/2 von -5/2 bis 5/2) sind .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, von links nach rechts lesend. Wenn überhaupt, werden die Passungen in der aufgeschnittenen Situation besser , weil die 10 getrennten Linien innerhalb ihrer engen Bereiche enger mit den Daten übereinstimmen können. Obwohl das für alle Schichten weit unter dem vollen , hat sich weder die Stärke der Beziehung, die Linearität noch irgendein Aspekt der Daten (mit Ausnahme des Bereichs von der für die Regression verwendet wird) geändert.R2R2R2R2X

Punktwolke mit voller Regression

Geschnittene Punktwolke mit 10 Regressionen

(Man könnte einwenden, dass diese Aufteilungsprozedur die Verteilung von . Das stimmt, aber es entspricht dennoch der am häufigsten verwendeten Verwendung von in der Festeffektmodellierung und zeigt, inwieweit uns über die Varianz von in der Situation mit zufälligen Effekten. Insbesondere wenn gezwungen ist, innerhalb eines kleineren Intervalls seines natürlichen Bereichs zu variieren, fällt normalerweise ab.)XR2R2XXR2

Das Grundproblem bei ist, dass es von zu vielen Dingen abhängt (auch wenn sie in multipler Regression angepasst werden), insbesondere aber von der Varianz der unabhängigen Variablen und der Varianz der Residuen. Normalerweise sagt es nichts über "Linearität" oder "Stärke der Beziehung" oder sogar "Güte der Anpassung" aus, um eine Sequenz von Modellen zu vergleichen.R2

Meistens finden Sie eine bessere Statistik als . Für die Modellauswahl können Sie auf AIC und BIC schauen. Betrachten Sie die Varianz der Residuen, um die Angemessenheit eines Modells auszudrücken. R2

Dies bringt uns schließlich zur zweiten Frage . Eine Situation, in der eine Verwendung finden könnte, besteht darin, dass die unabhängigen Variablen auf Standardwerte gesetzt werden und im Wesentlichen den Effekt ihrer Varianz steuern. Dann ist wirklich ein Proxy für die Varianz der Residuen, entsprechend standardisiert.R21R2

whuber
quelle
26
Was für eine erstaunlich gründliche und reaktionsschnelle Antwort von @whuber
Peter Flom
Passen sich AIC und BIC nicht explizit an die Anzahl der geschätzten Parameter an? Wenn ja, erscheint es unfair, einen Vergleich mit und ohne Anpassung von R ^ 2 anzustellen. Also frage ich, hält Ihre Kritik R ^ 2 angepasst? Es scheint, als ob Sie für das 'Schneiden' bestraft würden, dass das angepasste R ^ 2 in der Lage wäre, Ihnen wieder die Passgenauigkeit des Modells mitzuteilen.
Russellpierce
7
@dr Meine Kritik trifft perfekt auf angepasste . Die einzigen Fälle, in denen ein großer Unterschied zwischen und dem angepassten sind, wenn Sie eine Vielzahl von Parametern im Vergleich zu den Daten verwenden. Im Slicing-Beispiel gab es fast 1.000 Datenpunkte und beim Slicing wurden nur 18 Parameter hinzugefügt. Die Anpassungen an würden nicht einmal die zweite Dezimalstelle beeinflussen, außer möglicherweise in den Endsegmenten, in denen es nur ein paar Dutzend Datenpunkte gab: und sie würden gesenkt , was das Argument tatsächlich stärkt. R2R2R2R2
Whuber
5
Die Antwort auf die Frage in Ihrem ersten Kommentar sollte von Ihrem Ziel abhängen, und es gibt verschiedene Möglichkeiten, "Testen auf eine lineare Beziehung" zu interpretieren. Zum einen möchten Sie testen, ob der Koeffizient ungleich Null ist. Zum anderen möchten Sie wissen, ob Hinweise auf Nichtlinearität vorliegen. (für sich genommen) ist für beide nicht besonders nützlich, obwohl wir wissen, dass ein hohes mit vielen Daten bedeutet, dass ihr Streudiagramm ungefähr linear aussieht - wie mein zweites oder wie das Beispiel von @ macro. Für jedes Objektiv gibt es einen geeigneten Test und den dazugehörigen p-Wert. R2R2
Whuber
4
Bei Ihrer zweiten Frage sollten wir uns fragen, was unter "bester" linearer Anpassung zu verstehen ist. Ein Kandidat wäre ein beliebiger Fit, der die verbleibende Quadratsumme minimiert. Sie könnten sicher als Proxy dafür verwenden, aber warum nicht den (angepassten) quadratischen Mittelwertfehler selbst untersuchen? Es ist eine nützlichere Statistik. R2
Whuber
47

Ihr Beispiel gilt nur, wenn die Variable im Modell enthalten sein soll . Es trifft sicherlich nicht zu, wenn man die üblichen Schätzungen der kleinsten Quadrate verwendet. Um dies zu sehen, beachten Sie, dass , wenn wir schätzen der kleinsten Quadrate in Ihrem Beispiel, erhalten wir:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Wobei ist die (Beispiel-) Varianz von und ist der (Stichproben-) Mittelwert vonsX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Jetzt ist der zweite Term immer kleiner als (gleich im Limit), sodass wir aus der Variablen eine Obergrenze für den Beitrag zu :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

Und wenn , werden wir tatsächlich as (weil der Zähler auf Null geht, aber der Nenner in ). Außerdem kann es vorkommen, dass Wert zwischen und konvergiert, je nachdem, wie schnell die beiden Terme auseinanderlaufen. Nun wird der obige Term im Allgemeinen schneller auseinander gehen als wenn im Modell sein soll, und langsamer, wenn nicht im Modell sein soll. In beiden Fällen geht in die richtigen Richtungen.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

Beachten Sie auch, dass wir für einen endlichen Datensatz (dh einen realen) niemals sei denn, alle Fehler sind genau Null. Dies zeigt im Grunde genommen, dass eher ein relatives als ein absolutes Maß ist. Denn wenn gleich , können wir immer ein besser passendes Modell finden. Dies ist wahrscheinlich der "gefährliche" Aspekt von , da es so skaliert ist, dass es zwischen und Es scheint, als könnten wir es in einem absoluten Sinne interpretieren.R2=1R2R21R201

Es ist wahrscheinlich nützlicher zu sehen, wie schnell fällt, wenn Sie Variablen zum Modell hinzufügen. Und nicht zuletzt sollte es bei der Variablenauswahl nicht ignoriert werden, da effektiv eine ausreichende Statistik für die Variablenauswahl ist - es enthält alle Informationen zur Variablenauswahl, die in den Daten enthalten sind. Das Einzige, was benötigt wird, ist die Auswahl des Abfalls in der "Anpassen der Fehler" entspricht - was normalerweise von der Stichprobengröße und der Anzahl der Variablen abhängt.R2R2R2

Wahrscheinlichkeitslogik
quelle
4
+1 Viele schöne Punkte. Die Berechnungen ergänzen die vorherigen Antworten um quantitative Erkenntnisse.
Whuber
27

Wenn ich ein Beispiel hinzufügen kann, wann gefährlich ist. Vor vielen Jahren habe ich an biometrischen Daten gearbeitet, und als ich jung und dumm war, war ich erfreut, einige statistisch signifikante Werte für meine ausgefallenen Regressionen gefunden zu haben, die ich mit schrittweisen Funktionen konstruiert hatte. Erst als ich nach meiner Präsentation vor einem großen internationalen Publikum zurückblickte, wurde mir klar, dass angesichts der massiven Varianz der Daten - kombiniert mit der möglichen schlechten Repräsentation der Stichprobe in Bezug auf die Bevölkerung - ein von 0,02 absolut bedeutungslos war auch wenn es "statistisch signifikant" war ...R2R2R2

Wer mit Statistiken arbeitet, muss die Daten verstehen!

Sean
quelle
15
Keine Statistik ist gefährlich, wenn Sie verstehen, was sie bedeutet. Seans Beispiel hat nichts Besonderes mit R-Quadrat zu tun, es ist das allgemeine Problem, mit statistischer Signifikanz verliebt zu sein. Wenn wir statistische Tests in der Praxis durchführen, sind wir nur an bedeutenden Unterschieden interessiert. Zwei Populationen weisen niemals identische Verteilungen auf. Wenn sie fast gleich sind, ist es uns egal. Bei sehr großen Stichproben können wir kleine unwichtige Unterschiede feststellen. Deshalb betone ich in meiner medizinischen Forschungsberatung den Unterschied zwischen klinischer und statistischer Signifikanz.
Michael Chernick
11
Anfangs meinen Kunden oft, dass statistische Signifikanz das Ziel der Forschung ist. Ihnen muss gezeigt werden, dass dies nicht der Fall ist.
Michael Chernick
Ein statistisch signifikantes bei 0,02 bedeutet einfach, dass Sie über ausreichende Daten verfügten, um zu behaupten, dass nicht 0 ist. Es liegt jedoch nahe bei 0. Es besteht also nur eine sehr geringe Beziehung zwischen den unabhängigen Variablen und der abhängigen Variablen. R2R2
Michael Chernick
1
Stimme Michael absolut zu. Ein bisschen Statistik kann gefährlich sein! :) Basierend auf dieser Erkenntnis habe ich vor vielen Jahren hart daran gearbeitet, diesen blöden Fehler nicht zu wiederholen, indem ich viel studiert habe, um besser zu verstehen, was Statistiken wirklich bedeuten. Ich habe einen Master-Abschluss und einen Doktortitel in Statistik und denke immer noch, dass ich noch einen langen Weg vor meinem Studium habe!
Sean
Vielen Dank, Sean. Ich schätze Ihre Kommentare und Demut.
Michael Chernick
16

Wenn Sie einen einzelnen Prädiktor haben, wird genau als der Anteil der Variation in interpretiert, der durch die lineare Beziehung zu . Diese Interpretation muss beachtet werden, wenn der Wert von .R2YXR2

Sie können ein großes aus einer nichtlinearen Beziehung nur dann erhalten, wenn die Beziehung nahezu linear ist. Angenommen, wobei und . Wenn Sie die Berechnung vonR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

Sie werden feststellen, dass es bei (ich habe dies nur durch Simulation angenähert), obwohl die Beziehung eindeutig nicht linear ist. Der Grund ist, dass über das Intervall einer linearen Funktion sehr ähnlich sieht ..914eX(2,3)

Makro
quelle
1
Zu den nachstehenden Bemerkungen von Erik und Macro denke ich, dass mir niemand etwas vormacht, und es ist wahrscheinlich besser, eine kombinierte Antwort anstelle von drei separaten zu haben, aber warum ist es so wichtig, dass sich so viele Diskussionen darum drehen, wie Sie vorgehen schreibe Dinge und wo schreibst du sie, anstatt dich auf das zu konzentrieren, was gesagt wird?
Michael Chernick
8
@MichaelChernick, ich glaube nicht, dass es "so viele" Diskussionen darüber gibt, wie man Dinge schreibt. Die Richtlinien, mit denen wir versucht haben, Ihnen zu helfen, entsprechen eher dem Motto "Wenn alle das tun würden, wäre diese Website sehr unorganisiert und schwer zu befolgen". Es scheint, als würde viel über diese Dinge diskutiert, aber das liegt wahrscheinlich nur daran, dass Sie seit Ihrem Beitritt ein sehr aktiver Teilnehmer waren, was großartig ist, da Sie eindeutig viel auf den Tisch bringen. Wenn Sie mehr darüber sprechen möchten, sollten Sie einen Thread auf Meta anstatt einer Kommentardiskussion unter meiner unabhängigen Antwort beginnen :)
Makro
Was ist passiert, wenn man in Ihrem Beispiel die Unterstützung der Gleichverteilung verbreitert?
Qbik
Da ich auf dieser Site Erfahrungen gesammelt habe, muss ich Macro zustimmen, dass es wichtig ist, präzise und konsolidiert zu sein.
Michael Chernick
15

Eine Situation , die Sie wollen würden , vermeiden ist multiple Regression, wo das Hinzufügen irrelevant Prädiktorvariablen auf das Modell in einigen Fällen erhöhen können . Dies kann behoben werden, indem stattdessen der angepasste Wert verwendet wird, berechnet alsR2R2R2

R¯2=1(1R2)n1np1 wobei die Anzahl der Datenabtastungen und die Anzahl der Regressoren ist, die den konstanten Term nicht zählen .np

jedfrancis
quelle
21
Beachten Sie, dass das Hinzufügen irrelevanter Variablen garantiert erhöht (nicht nur in "einigen Fällen"), es sei denn, diese Variablen sind vollständig mit den vorhandenen Variablen kollinear. R2
Whuber
6
  1. Ein gutes Beispiel für ein hohes mit einer nichtlinearen Funktion ist die quadratische Funktion die auf das Intervall . Bei 0 Rauschen hat es kein Quadrat von 1, wenn Sie 3 oder mehr Punkte haben, da diese nicht perfekt auf eine gerade Linie passen. Aber wenn die Auslegungspunkte gleichmäßig auf dem das Sie erhalten, vielleicht überraschend hoch sein. Dies ist möglicherweise nicht der Fall, wenn Sie viele Punkte nahe 0 und viele nahe 1 mit wenig oder nichts in der Mitte haben.R2y=x2[0,1]R2[0,1]R2

  2. R2 ist im perfekten linearen Fall schlecht, wenn der Rauschausdruck eine große Varianz aufweist. Man kann also das Modell das technisch gesehen ein perfektes lineares Modell ist, aber die Varianz in e gegen unendlich tendieren lassen, und man hat gegen 0. Trotz seiner Mängel misst R square den Prozentsatz von Die Abweichung wird durch die Daten erklärt und misst somit die Anpassungsgüte. Ein hohes bedeutet eine gute Anpassung, aber wir müssen trotzdem darauf achten, dass die gute Anpassung durch zu viele Parameter für die Größe des Datensatzes verursacht wird, den wir haben.Y=x+ϵR2R2

  3. In der multiplen Regressionssituation besteht das Problem der Überanpassung. Addiere Variablen und wird immer größer. Das angepasste behebt dies etwas, da es die Anzahl der Parameter berücksichtigt.R2R2

Michael Chernick
quelle