Warum können wir für Transformationen abhängiger Variablen verwenden?

10

Stellen Sie sich vor, wir haben ein lineares Regressionsmodell mit der abhängigen Variablen . Wir finden sein . Jetzt führen wir eine weitere Regression durch, diesmal jedoch auf , und finden in ähnlicher Weise deren . Mir wurde gesagt, dass ich nicht beide vergleichen kann, um zu sehen, welches Modell besser geeignet ist. Warum das? Der Grund dafür war, dass wir die Variabilität verschiedener Größen (verschiedene abhängige Variablen) vergleichen würden. Ich bin mir nicht sicher, ob dies ein ausreichender Grund dafür sein sollte.R 2y log(y)R 2 log ( y ) R2Ry2log(y)Rlog(y)2R2

Gibt es auch eine Möglichkeit, dies zu formalisieren?

Jede Hilfe wäre dankbar.

Ein alter Mann im Meer.
quelle
1
Ich vermute, dass dies bereits bei Cross Validated besprochen wurde. Haben Sie ähnliche Themen gründlich durchgearbeitet? Interessieren Sie sich auch für verschiedene abhängige Variablen (wie BIP vs. Ölpreis) oder Transformationen derselben Variablen (BIP vs. BIP-Wachstum) oder für beides?
Richard Hardy
@RichardHardy Ich habe einige gefunden, aber ich denke, sie haben meine Frage berührt. Wie dieser: stats.stackexchange.com/questions/235117/… Die Antwort lautet nur Ja und erklärt nicht wirklich warum.
Ein alter Mann im Meer.
@RichardHardy Ich interessiere mich für Transformationen der abhängigen Variablen.
Ein alter Mann im Meer.
1
R2 Vergleiche sind nur zwischen verschachtelten Modellen sinnvoll.
LVRao
@LVRao Danke für deinen Kommentar. Wieso ist es so?
Ein alter Mann im Meer.

Antworten:

8

Das ist eine gute Frage, denn "unterschiedliche Mengen" scheinen keine große Erklärung zu sein.

Es gibt zwei wichtige Gründe, sich vor der Verwendung von zum Vergleich dieser Modelle in Acht zu nehmen: Es ist zu grob (es bewertet die Anpassungsgüte nicht wirklich ) und es wird für mindestens eines der Modelle unangemessen sein. Diese Antwort befasst sich mit diesem zweiten Problem.R2


Theoretische Behandlung

R 2 yR2 vergleicht die Varianz der Modellreste mit der Varianz der Antworten. Die Varianz ist eine mittlere quadratische additive Abweichung von einer Anpassung. Als solches können wir als Vergleich zweier Modelle der Antwort verstehen . R2y

Das "Basismodell" ist

(1)yi=μ+δi

Dabei ist ein Parameter (die theoretische mittlere Antwort) und unabhängige zufällige "Fehler" mit jeweils einem Mittelwert von Null und einer gemeinsamen Varianz von .δ i τ 2μδiτ2

Das lineare Regressionsmodell führt die Vektoren als erklärende Variablen ein:xi

(2)yi=β0+xiβ+εi.

Die Zahl und der Vektor sind die Parameter (der Achsenabschnitt und die "Steigungen"). Die wiederum unabhängige Zufallsfehler mit jeweils einem Mittelwert von Null und einer gemeinsamen Varianz . β ε i σ 2β0βεiσ2

τ 2 - σ 2 τ 2R2 schätzt die Verringerung der Varianz im Vergleich zur ursprünglichen Varianz .τ2σ2τ2

Wenn Sie Logarithmen verwenden und die kleinsten Quadrate verwenden, um das Modell anzupassen, vergleichen Sie implizit eine Beziehung der Form

(1a)log(yi)=ν+ζi

zu einem der Formulare

(2a)log(yi)=γ0+xiγ+ηi.

Diese sind genau wie die Modelle und jedoch mit Protokollantworten. Sie entsprechen jedoch nicht den ersten beiden Modellen. Zum Beispiel würde eine Potenzierung beider Seiten von ergeben( 2 ) ( 2 a )(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Die Fehlerterme multiplizieren nun die zugrunde liegende Beziehung . Folglich sind die Abweichungen der Antworteny i = exp ( γ 0 + x i γ )exp(ηi)yi=exp(γ0+xiγ)

Var(yich)=exp(γ0+xichγ)2Var(eηich).

Die Abweichungen hängen vom . xich (2) σ 2 Das ist nicht Modell , das annimmt, dass die Varianzen alle gleich einer Konstanten .(2)σ2

Normalerweise kann nur einer dieser Modellsätze eine sinnvolle Beschreibung der Daten sein. Das Anwenden der zweiten Menge und wenn die erste Menge und ein gutes Modell ist, oder die erste, wenn die zweite gut ist, bedeutet, mit zu arbeiten ein nichtlinearer, heteroskedastischer Datensatz, der daher schlecht mit einer linearen Regression übereinstimmen sollte. Wenn eine dieser Situationen der Fall ist, können wir erwarten, dass das bessere Modell das größere . Was ist jedoch, wenn beides nicht der Fall ist? Können wir immer noch erwarten, dass das größere uns hilft, das bessere Modell zu identifizieren?( 2 a ) ( 1 ) ( 2 ) R 2 R 2(1ein)(2ein)(1)(2)R.2R.2

Analyse

In gewissem Sinne ist dies keine gute Frage, denn wenn keines der beiden Modelle geeignet ist, sollten wir ein drittes Modell finden. Das vor uns liegende Problem betrifft jedoch die Nützlichkeit von um uns bei dieser Entscheidung zu helfen. Darüber hinaus denken viele Menschen zuerst über die Form der Beziehung zwischen und nach - ist sie linear, ist sie logarithmisch, ist sie etwas anderes - ohne sich um die Eigenschaften der Regressionsfehler oder . Betrachten wir daher eine Situation, in der unser Modell die Beziehung richtig macht, aber in Bezug auf seine Fehlerstruktur falsch ist, oder umgekehrt . x y ε i η iR.2xyεichηich

Ein solches Modell (das üblicherweise auftritt) ist eine Anpassung der kleinsten Quadrate an eine exponentielle Beziehung.

(3)yich=exp(α0+xichα)+θich.

Nun ist der Logarithmus von eine lineare Funktion von wie in , aber die Fehlerterme sind additiv wie in . In solchen Fällen könnte uns irreführen, das Modell mit der falschen Beziehung zwischen und zu wählen .x ( 2 a ) θ i ( 2 ) R 2 x yyx(2ein)θich(2)R.2xy

Hier ist eine Abbildung von Modell . Es gibt Beobachtungen für (ein 1-Vektor, der gleichmäßig zwischen und ). Das linke Feld zeigt die ursprünglichen Daten, während das rechte Feld die transformierten Daten zeigt. Die gestrichelten roten Linien stellen die wahre zugrunde liegende Beziehung dar, während die durchgezogenen blauen Linien die Anpassungen der kleinsten Quadrate zeigen. Die Daten und die wahre Beziehung sind in beiden Panels gleich: Nur die Modelle und ihre Passungen unterscheiden sich.300 x i 1,0 1,6 ( x , y ) ( x , log ( y ) )(3)300xich1.01.6(x,y)(x,Log(y))

Streudiagramme

Die Anpassung an die Protokollantworten auf der rechten Seite ist eindeutig gut: Sie stimmt fast mit der tatsächlichen Beziehung überein und beide sind linear. Die Anpassung an die ursprünglichen Antworten links ist deutlich schlechter: Sie ist linear, während die wahre Beziehung exponentiell ist. Leider hat es einen deutlich größeren Wert von : Vergleich zu . Deshalb sollten wir nicht darauf vertrauen, dass uns zum besseren Modell führt. Deshalb sollten wir mit der Anpassung nicht zufrieden sein, selbst wenn "hoch" ist (und in vielen Anwendungen würde ein Wert von tatsächlich als hoch angesehen). 0,70 0,56 R 2 R 2 0,70R.20,700,56R.2R.20,70


Eine bessere Methode zur Bewertung dieser Modelle sind im Übrigen Tests der Anpassungsgüte (die auf die Überlegenheit des Protokollmodells rechts hinweisen würden) und Diagnosediagramme für die Stationarität der Residuen (die Probleme mit beiden Modellen hervorheben würden). Solche Bewertungen würden natürlich entweder zu einer gewichteten Anpassung der kleinsten Quadrate von oder direkt zum Modell selbst führen, das unter Verwendung der Maximum-Likelihood- oder nichtlinearen Methode der kleinsten Quadrate angepasst werden müsste.( 3 )Log(y)(3)

whuber
quelle
Die Kritik an R ^ 2 ist nicht fair. Wie jedes Werkzeug sollte seine Verwendung gut verstanden werden. In Ihren obigen Beispielen gibt R ^ 2 die richtige Nachricht. R ^ 2 wählt in gewisser Weise das bessere Signal-Rausch-Verhältnis. Natürlich ist es nicht offensichtlich, wenn Sie zwei Diagramme mit völlig unterschiedlichen Maßstäben nebeneinander platzieren. In Wirklichkeit ist das Signal links im Vergleich zu den Rauschabweichungen sehr stark.
Cagdas Ozgenc
@Cagdas Sie scheinen eine inhärent widersprüchliche Botschaft zu liefern. Da die beiden Diagramme unvermeidlich auf zwei verschiedenen Skalen liegen - eines zeichnet die ursprünglichen Antworten und das andere ihre Logarithmen -, scheint die Behauptung, dass etwas aufgrund dieser unvermeidbaren Tatsache "nicht offensichtlich" ist, Ihren Fall nicht zu stützen. Die Beschwerde, dass diese Antwort "unfair" sei, hält angesichts der expliziten Analyse der von mir angebotenen Modelle nicht stand.
whuber
Es gibt keinen Widerspruch in dem, was ich sage. R ^ 2 wählt das höhere Signal-Rausch-Verhältnis. Das ist es, was es tut. Der Versuch, es zu etwas anderem zu machen und zu behaupten, dass es nicht funktioniert, ist völlig falsch. Alle Kritikpunkte an R ^ 2 gelten auch für andere Indikatoren für die Güte der Anpassung, wenn sie auf unterschiedliche Antwortvariablen angewendet werden. Aus irgendeinem Grund wird R ^ 2 jedoch zum Sündenbock gewählt.
Cagdas Ozgenc
Es würde mich wirklich interessieren, @Cagdas, welchen Teil dieser Analyse Sie als "Sündenbock" für ansehen . Soweit ich das beurteilen kann, handelt es sich um eine leidenschaftslose und technisch korrekte Einschätzung dessen, was ist und was nicht. Ich sehe nicht ein, wie wichtig es ist, sich auf "Signal-Rausch-Verhältnisse" zu beziehen, obwohl das Beispiel explizit zeigt, wie das bessere Modell (in dem von mir beschriebenen Sinne, das mit dem übereinstimmt, was die meisten Leute unter "Anpassungsgüte" verstehen) erzeugt das schlechtere . R 2 R 2R.2R.2R.2
whuber
2
Danke für deine Hilfe whuber. Entschuldigung für die verspätete Annahme, ich hatte in letzter Zeit nicht viel Freizeit. ;)
Ein alter Mann im Meer.