Stellen Sie sich vor, wir haben ein lineares Regressionsmodell mit der abhängigen Variablen . Wir finden sein . Jetzt führen wir eine weitere Regression durch, diesmal jedoch auf , und finden in ähnlicher Weise deren . Mir wurde gesagt, dass ich nicht beide vergleichen kann, um zu sehen, welches Modell besser geeignet ist. Warum das? Der Grund dafür war, dass wir die Variabilität verschiedener Größen (verschiedene abhängige Variablen) vergleichen würden. Ich bin mir nicht sicher, ob dies ein ausreichender Grund dafür sein sollte.R 2 log(y)R 2 log ( y ) R2
Gibt es auch eine Möglichkeit, dies zu formalisieren?
Jede Hilfe wäre dankbar.
regression
data-transformation
r-squared
Ein alter Mann im Meer.
quelle
quelle
Antworten:
Das ist eine gute Frage, denn "unterschiedliche Mengen" scheinen keine große Erklärung zu sein.
Es gibt zwei wichtige Gründe, sich vor der Verwendung von zum Vergleich dieser Modelle in Acht zu nehmen: Es ist zu grob (es bewertet die Anpassungsgüte nicht wirklich ) und es wird für mindestens eines der Modelle unangemessen sein. Diese Antwort befasst sich mit diesem zweiten Problem.R.2
Theoretische Behandlung
R 2 yR.2 vergleicht die Varianz der Modellreste mit der Varianz der Antworten. Die Varianz ist eine mittlere quadratische additive Abweichung von einer Anpassung. Als solches können wir als Vergleich zweier Modelle der Antwort verstehen . R.2 y
Das "Basismodell" ist
Dabei ist ein Parameter (die theoretische mittlere Antwort) und unabhängige zufällige "Fehler" mit jeweils einem Mittelwert von Null und einer gemeinsamen Varianz von .δ i τ 2μ δich τ2
Das lineare Regressionsmodell führt die Vektoren als erklärende Variablen ein:xich
Die Zahl und der Vektor sind die Parameter (der Achsenabschnitt und die "Steigungen"). Die wiederum unabhängige Zufallsfehler mit jeweils einem Mittelwert von Null und einer gemeinsamen Varianz . β ε i σ 2β0 β εich σ2
τ 2 - σ 2 τ 2R.2 schätzt die Verringerung der Varianz im Vergleich zur ursprünglichen Varianz .τ2- σ2 τ2
Wenn Sie Logarithmen verwenden und die kleinsten Quadrate verwenden, um das Modell anzupassen, vergleichen Sie implizit eine Beziehung der Form
zu einem der Formulare
Diese sind genau wie die Modelle und jedoch mit Protokollantworten. Sie entsprechen jedoch nicht den ersten beiden Modellen. Zum Beispiel würde eine Potenzierung beider Seiten von ergeben( 2 ) ( 2 a )( 1 ) ( 2 ) ( 2 a )
Die Fehlerterme multiplizieren nun die zugrunde liegende Beziehung . Folglich sind die Abweichungen der Antworteny i = exp ( γ 0 + x i γ )exp( ηich) yich= exp( γ0+ xichγ)
Die Abweichungen hängen vom .xich (2) σ 2 Das ist nicht Modell , das annimmt, dass die Varianzen alle gleich einer Konstanten .( 2 ) σ2
Normalerweise kann nur einer dieser Modellsätze eine sinnvolle Beschreibung der Daten sein. Das Anwenden der zweiten Menge und wenn die erste Menge und ein gutes Modell ist, oder die erste, wenn die zweite gut ist, bedeutet, mit zu arbeiten ein nichtlinearer, heteroskedastischer Datensatz, der daher schlecht mit einer linearen Regression übereinstimmen sollte. Wenn eine dieser Situationen der Fall ist, können wir erwarten, dass das bessere Modell das größere . Was ist jedoch, wenn beides nicht der Fall ist? Können wir immer noch erwarten, dass das größere uns hilft, das bessere Modell zu identifizieren?( 2 a ) ( 1 ) ( 2 ) R 2 R 2( 1 a ) ( 2 a ) ( 1 ) ( 2 ) R.2 R.2
Analyse
In gewissem Sinne ist dies keine gute Frage, denn wenn keines der beiden Modelle geeignet ist, sollten wir ein drittes Modell finden. Das vor uns liegende Problem betrifft jedoch die Nützlichkeit von um uns bei dieser Entscheidung zu helfen. Darüber hinaus denken viele Menschen zuerst über die Form der Beziehung zwischen und nach - ist sie linear, ist sie logarithmisch, ist sie etwas anderes - ohne sich um die Eigenschaften der Regressionsfehler oder . Betrachten wir daher eine Situation, in der unser Modell die Beziehung richtig macht, aber in Bezug auf seine Fehlerstruktur falsch ist, oder umgekehrt . x y ε i η iR.2 x y εich ηich
Ein solches Modell (das üblicherweise auftritt) ist eine Anpassung der kleinsten Quadrate an eine exponentielle Beziehung.
Nun ist der Logarithmus von eine lineare Funktion von wie in , aber die Fehlerterme sind additiv wie in . In solchen Fällen könnte uns irreführen, das Modell mit der falschen Beziehung zwischen und zu wählen .x ( 2 a ) θ i ( 2 ) R 2 x yy x ( 2 a ) θich ( 2 ) R.2 x y
Hier ist eine Abbildung von Modell . Es gibt Beobachtungen für (ein 1-Vektor, der gleichmäßig zwischen und ). Das linke Feld zeigt die ursprünglichen Daten, während das rechte Feld die transformierten Daten zeigt. Die gestrichelten roten Linien stellen die wahre zugrunde liegende Beziehung dar, während die durchgezogenen blauen Linien die Anpassungen der kleinsten Quadrate zeigen. Die Daten und die wahre Beziehung sind in beiden Panels gleich: Nur die Modelle und ihre Passungen unterscheiden sich.300 x i 1,0 1,6 ( x , y ) ( x , log ( y ) )( 3 ) 300 xich 1.0 1.6 ( x , y) ( x , log( y) )
Die Anpassung an die Protokollantworten auf der rechten Seite ist eindeutig gut: Sie stimmt fast mit der tatsächlichen Beziehung überein und beide sind linear. Die Anpassung an die ursprünglichen Antworten links ist deutlich schlechter: Sie ist linear, während die wahre Beziehung exponentiell ist. Leider hat es einen deutlich größeren Wert von : Vergleich zu . Deshalb sollten wir nicht darauf vertrauen, dass uns zum besseren Modell führt. Deshalb sollten wir mit der Anpassung nicht zufrieden sein, selbst wenn "hoch" ist (und in vielen Anwendungen würde ein Wert von tatsächlich als hoch angesehen). 0,70 0,56 R 2 R 2 0,70R.2 0,70 0,56 R.2 R.2 0,70
Eine bessere Methode zur Bewertung dieser Modelle sind im Übrigen Tests der Anpassungsgüte (die auf die Überlegenheit des Protokollmodells rechts hinweisen würden) und Diagnosediagramme für die Stationarität der Residuen (die Probleme mit beiden Modellen hervorheben würden). Solche Bewertungen würden natürlich entweder zu einer gewichteten Anpassung der kleinsten Quadrate von oder direkt zum Modell selbst führen, das unter Verwendung der Maximum-Likelihood- oder nichtlinearen Methode der kleinsten Quadrate angepasst werden müsste.( 3 )Log( y) ( 3 )
quelle