Wie werden Regressionskoeffizienten interpretiert, wenn die Antwort durch die 4. Wurzel transformiert wurde?

20

1/4Aufgrund der Heteroskedastizität verwende ich die vierte root ( ) - Potenztransformation für meine Antwortvariable. Jetzt bin ich mir jedoch nicht sicher, wie ich meine Regressionskoeffizienten interpretieren soll.

Ich gehe davon aus, dass ich die Koeffizienten bei der Rücktransformation auf die vierte Potenz bringen müsste (siehe unten Regressionsausgabe). Alle Variablen sind in Einheiten von Dollar in Millionen angegeben, aber ich würde gerne wissen, wie sich der Dollar in Milliarden verändert.

Während die andere unabhängige Variable konstant bleibt, führt eine Veränderung der Gebühren um eine Milliarde Dollar im Durchschnitt zu einer Veränderung der 32Sammlungen um (oder 32.000 Dollar). Ich nehme 0.000075223 * 1000(um zu Milliarden zu kommen) ^ 4 = 0.000032. Multipliziere ich diese Zahl nun mit 1 Million oder 1 Milliarde (die ursprüngliche Einheit der abhängigen Variablen ist in Millionen)?

lm(formula = (Collections^(1/4)) ~ Fees + DIR)

                 Estimate      Std. Error  t value            Pr(>|t|)
(Intercept)   2.094573355     0.112292375   18.653  0.0000000000000151
Fees        **0.000075223   **0.000008411    8.943  0.0000000131878713
DIR           0.000022279     0.000004107    5.425  0.0000221138881913
user13968
quelle
4
Vielleicht möchten Sie dies lesen: Rücktransformation von Regressionskoeffizienten .
gung - Wiedereinsetzung von Monica

Antworten:

24

Die beste Lösung besteht zu Beginn darin, einen Wiederausdruck zu wählen, der im Fachgebiet eine Bedeutung hat.

(Zum Beispiel, wenn das Körpergewichtes gegen unabhängige Faktoren Regression, bin es wahrscheinlich , dass entweder eine Kubikwurzel ( power) oder Quadratwurzel ( 1 / 2 Leistung) wird angezeigt. , Dass das Gewicht Anbetracht das ist ein guter Indikator für Lautstärke, der Würfel Die Wurzel ist eine Länge, die eine charakteristische lineare Größe darstellt. Dies verleiht ihr eine intuitive, möglicherweise interpretierbare Bedeutung. Obwohl die Quadratwurzel selbst keine so klare Interpretation aufweist, liegt sie nahe an der 2 / 3- Potenz, die Dimensionen der Oberfläche aufweist : Sie entspricht möglicherweise der gesamten Hautfläche.)1/31/22/3

Die vierte Potenz ist dem Logarithmus so nahe, dass Sie überlegen sollten, stattdessen das Log zu verwenden , dessen Bedeutung gut verstanden wird. Aber manchmal stellen wir wirklich fest, dass eine Kubikwurzel oder Quadratwurzel oder eine solche gebrochene Potenz einen tollen Job macht und keine offensichtliche Interpretation hat. Dann müssen wir ein wenig rechnen.

Das in der Frage gezeigte Regressionsmodell beinhaltet eine abhängige Variable ("Collections") und zwei unabhängige Variablen X 1 ("Fees") und X 2 ("DIR"). Es setzt das vorausY.X1X2

Y1/4=β0+β1X1+β2X2+ε.

Der Code schätzt als b 0 = 2,094573355 , β 1 als b 1 = 0,000075223 und β 2 als b 2 = 0,000022279 . Es wird auch angenommen, dass & egr; mit einem Mittelwert von Null normal ist, und es wird ihre gemeinsame Varianz geschätzt (nicht gezeigt). Bei diesen Schätzungen der aufgezogene Wert von Y 1 / 4 ist ,β0b0=2.094573355β1b1=0,000075223β2b2=0,000022279εY.1/4

Y.1/4^=b0+b1X1+b2X2.

"Interpretieren" von Regressionskoeffizienten bedeutet normalerweise das Bestimmen, welche Änderung in der abhängigen Variablen durch eine gegebene Änderung in jeder unabhängigen Variablen vorgeschlagen wird. Diese Änderungen sind die Ableitungen , von denen die Kettenregel besagt, dass sie 4 β i Y 3 entsprechen . Wir würden dann die Schätzungen einfügen und so etwas sagendY/dXich4βichY3

Die Regressions schätzen , dass eine Einheitsänderung in wird mit einer Änderung in Verbindung gebracht wird Y von 4 b i Y 3 = 4 b i ( b 0 + b 1 X 1 + b 2 X 2 ) 3 .XichY.4bichY.^34bich(b0+b1X1+b2X2)3

Die Abhängigkeit der Interpretation von und X 2 wird nicht einfach in Worten ausgedrückt, imX1X2 Gegensatz zu Situationen ohne Transformation von (eine Änderung der Einheit in X i ist mit einer Änderung von b i in Y verbunden ) oder mit dem Logarithmus (eins) prozentuale Änderung von X i ist mit b i prozentualer Änderung von Y ) verbunden. Indem Sie jedoch die erste Form der Interpretation beibehalten und 4 b 1 = 4 × 0,000075223 = 0,000301 berechnenY.XichbichY.XichbichY.4b14×0,0000752230,000301könnten wir so etwas sagen

Eine Gebührenänderung pro Einheit ist mit einer Änderung der Sammlungen um das fache des Würfels der aktuellen Sammlungen verbunden. Wenn beispielsweise die aktuellen Sammlungen 10 sind , ist eine Erhöhung der Gebühren um jeweils 0,301 mit einer Erhöhung der Sammlungen verbunden, und wenn die aktuellen Sammlungen 20 sind , ist dieselbe Erhöhung der Gebühren um jeweils 2,41 mit einer Erhöhung der Sammlungen verbunden.0,000301100,301202,41


Y.pY.p41/p

whuber
quelle
12

Eine Alternative zur Transformation ist hier die Verwendung eines verallgemeinerten linearen Modells mit Link Function Power und Power 1/4. Die zu verwendende Fehlerfamilie ist offen. Dies gibt Ihnen mehr Flexibilität als bei linearer Regression und der Annahme einer bedingten Normalität. Ein wesentlicher Vorteil dieses Verfahrens besteht darin, dass Vorhersagen automatisch auf der ursprünglichen Messskala erstellt werden, sodass von einer Rücktransformation keine Rede ist.

Nick Cox
quelle
4

Ich habe Aufsätze gesehen, in denen Viertelwurzel-Regressionskoeffizienten verwendet wurden, um über prozentuale Änderungen nachzudenken und gleichzeitig zu vermeiden, Protokolle zu führen (und Beobachtungen fallen zu lassen).

Wenn wir Quartikwurzeln zur Berechnung der prozentualen Änderungen verwenden möchten, wissen wir, dass:

Y.^=(α+β^1X1+β^2X2)4dY.^dX1=4β^1(α+β^1X1+β^2X2)3

Y.XX

dY.^/dX1Y.=4β^1α+β^1X1+β^2X2

Y.X

dY.^dX1X1Y.^=4β^1X1α+β^1X1+β^2X2

X

Y.1/4

user68005
quelle