1/4
Aufgrund der Heteroskedastizität verwende ich die vierte root ( ) - Potenztransformation für meine Antwortvariable. Jetzt bin ich mir jedoch nicht sicher, wie ich meine Regressionskoeffizienten interpretieren soll.
Ich gehe davon aus, dass ich die Koeffizienten bei der Rücktransformation auf die vierte Potenz bringen müsste (siehe unten Regressionsausgabe). Alle Variablen sind in Einheiten von Dollar in Millionen angegeben, aber ich würde gerne wissen, wie sich der Dollar in Milliarden verändert.
Während die andere unabhängige Variable konstant bleibt, führt eine Veränderung der Gebühren um eine Milliarde Dollar im Durchschnitt zu einer Veränderung der 32
Sammlungen um (oder 32.000 Dollar). Ich nehme 0.000075223 * 1000
(um zu Milliarden zu kommen) ^ 4 = 0.000032
. Multipliziere ich diese Zahl nun mit 1 Million oder 1 Milliarde (die ursprüngliche Einheit der abhängigen Variablen ist in Millionen)?
lm(formula = (Collections^(1/4)) ~ Fees + DIR)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.094573355 0.112292375 18.653 0.0000000000000151
Fees **0.000075223 **0.000008411 8.943 0.0000000131878713
DIR 0.000022279 0.000004107 5.425 0.0000221138881913
quelle
Antworten:
Die beste Lösung besteht zu Beginn darin, einen Wiederausdruck zu wählen, der im Fachgebiet eine Bedeutung hat.
(Zum Beispiel, wenn das Körpergewichtes gegen unabhängige Faktoren Regression, bin es wahrscheinlich , dass entweder eine Kubikwurzel ( power) oder Quadratwurzel ( 1 / 2 Leistung) wird angezeigt. , Dass das Gewicht Anbetracht das ist ein guter Indikator für Lautstärke, der Würfel Die Wurzel ist eine Länge, die eine charakteristische lineare Größe darstellt. Dies verleiht ihr eine intuitive, möglicherweise interpretierbare Bedeutung. Obwohl die Quadratwurzel selbst keine so klare Interpretation aufweist, liegt sie nahe an der 2 / 3- Potenz, die Dimensionen der Oberfläche aufweist : Sie entspricht möglicherweise der gesamten Hautfläche.)1/3 1/2 2/3
Die vierte Potenz ist dem Logarithmus so nahe, dass Sie überlegen sollten, stattdessen das Log zu verwenden , dessen Bedeutung gut verstanden wird. Aber manchmal stellen wir wirklich fest, dass eine Kubikwurzel oder Quadratwurzel oder eine solche gebrochene Potenz einen tollen Job macht und keine offensichtliche Interpretation hat. Dann müssen wir ein wenig rechnen.
Das in der Frage gezeigte Regressionsmodell beinhaltet eine abhängige Variable ("Collections") und zwei unabhängige Variablen X 1 ("Fees") und X 2 ("DIR"). Es setzt das vorausY. X1 X2
Der Code schätzt als b 0 = 2,094573355 , β 1 als b 1 = 0,000075223 und β 2 als b 2 = 0,000022279 . Es wird auch angenommen, dass & egr; mit einem Mittelwert von Null normal ist, und es wird ihre gemeinsame Varianz geschätzt (nicht gezeigt). Bei diesen Schätzungen der aufgezogene Wert von Y 1 / 4 ist ,β0 b0= 2,094573355 β1 b1= 0,000075223 β2 b2= 0,000022279 ε Y.1 / 4
"Interpretieren" von Regressionskoeffizienten bedeutet normalerweise das Bestimmen, welche Änderung in der abhängigen Variablen durch eine gegebene Änderung in jeder unabhängigen Variablen vorgeschlagen wird. Diese Änderungen sind die Ableitungen , von denen die Kettenregel besagt, dass sie 4 β i Y 3 entsprechen . Wir würden dann die Schätzungen einfügen und so etwas sagendY/dXi 4βiY3
Die Abhängigkeit der Interpretation von und X 2 wird nicht einfach in Worten ausgedrückt, imX1 X2 Gegensatz zu Situationen ohne Transformation von (eine Änderung der Einheit in X i ist mit einer Änderung von b i in Y verbunden ) oder mit dem Logarithmus (eins) prozentuale Änderung von X i ist mit b i prozentualer Änderung von Y ) verbunden. Indem Sie jedoch die erste Form der Interpretation beibehalten und 4 b 1 = 4 × 0,000075223 = 0,000301 berechnenY. Xich bich Y. Xich bich Y. 4 b1 4 × 0,000075223 0,000301 könnten wir so etwas sagen
quelle
Eine Alternative zur Transformation ist hier die Verwendung eines verallgemeinerten linearen Modells mit Link Function Power und Power 1/4. Die zu verwendende Fehlerfamilie ist offen. Dies gibt Ihnen mehr Flexibilität als bei linearer Regression und der Annahme einer bedingten Normalität. Ein wesentlicher Vorteil dieses Verfahrens besteht darin, dass Vorhersagen automatisch auf der ursprünglichen Messskala erstellt werden, sodass von einer Rücktransformation keine Rede ist.
quelle
Ich habe Aufsätze gesehen, in denen Viertelwurzel-Regressionskoeffizienten verwendet wurden, um über prozentuale Änderungen nachzudenken und gleichzeitig zu vermeiden, Protokolle zu führen (und Beobachtungen fallen zu lassen).
Wenn wir Quartikwurzeln zur Berechnung der prozentualen Änderungen verwenden möchten, wissen wir, dass:
quelle