Meine Situation ist:
Ich habe 1 kontinuierliche abhängige und 1 kontinuierliche Prädiktorvariable, die ich logarithmisch transformiert habe, um ihre Residuen für eine einfache lineare Regression zu normalisieren.
Ich würde mich über jede Hilfe freuen, wie ich diese transformierten Variablen mit ihrem ursprünglichen Kontext in Beziehung setzen kann.
Ich möchte eine lineare Regression verwenden, um die Anzahl der Tage, an denen Schüler 2011 die Schule verpasst haben, basierend auf der Anzahl der Tage, die sie 2010 verpasst haben, vorherzusagen. Die meisten Schüler verpassen 0 Tage oder nur wenige Tage. Die Daten sind positiv nach links verschoben. Daher besteht ein Transformationsbedarf, um eine lineare Regression zu verwenden.
Ich habe log10 (var + 1) für beide Variablen verwendet (ich habe +1 für Schüler verwendet, die 0 Schultage verpasst hatten). Ich verwende Regression, weil ich kategoriale Faktoren hinzufügen möchte - Geschlecht / ethnische Zugehörigkeit usw.
Mein Problem ist:
Das Publikum, dem ich eine Rückmeldung geben möchte, würde log10 (y) = log (Konstante) + log (var2) x nicht verstehen (und ehrlich gesagt auch nicht ich).
Meine Fragen sind:
a) Gibt es bessere Möglichkeiten, transformierte Variablen in der Regression zu interpretieren? Dh für immer 1 Tag im Jahr 2010 verpasst werden sie 2 Tage im Jahr 2011 verpassen, im Gegensatz zu für immer 1 Log-Einheit-Änderung im Jahr 2010 wird es x Log-Einheiten-Änderung im Jahr 2011 geben?
b) Insbesondere unter Berücksichtigung der zitierten Passage aus dieser Quelle wie folgt:
"Dies ist die negative binomiale Regressionsschätzung für eine Erhöhung des mathematisch standardisierten Testergebnisses um eine Einheit, da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler sein Mathnce-Testergebnis um einen Punkt erhöht, beträgt die Differenz in den Protokollen von Es wird erwartet, dass die erwarteten Zählungen um 0,0016 Einheiten abnehmen, während die anderen Variablen im Modell konstant bleiben. "
Ich würde gerne wissen:
- Sagt diese Passage, dass für jede Einheit eine Erhöhung der Punktzahl der
UNTRANSFORMED
variablen Mathematik zu einer Abnahme der Konstante (a) um 0,0016 führt. Wenn also dieUNTRANSFORMED
Punktzahl der Mathematik um zwei Punkte steigt, subtrahiere ich 0,0016 * 2 von der Konstante a? - Bedeutet das, dass ich den geometrischen Mittelwert durch Verwendung von Exponential (a)) und Exponential (a + beta * 2) erhalte und dass ich die prozentuale Differenz zwischen diesen beiden berechnen muss, um zu sagen, welchen Effekt die Prädiktorvariable (n) hat auf die abhängige Variable haben?
- Oder habe ich das völlig falsch verstanden?
Ich verwende SPSS v20. Entschuldigen Sie, dass Sie dies in einer langen Frage formuliert haben.
R
hat Pakete für Modelle ohneAntworten:
Ich denke, der wichtigere Punkt wird in @ whubers Kommentar vorgeschlagen. Ihr ganzer Ansatz ist falsch, weil Sie durch die Verwendung von Logarithmen effektiv alle Schüler mit null fehlenden Tagen in den Jahren 2010 oder 2011 aus dem Datensatz werfen. Es scheint, dass es genug dieser Personen gibt, um ein Problem zu sein, und ich bin sicher, dass Ihre Ergebnisse dies tun werden Seien Sie falsch, basierend auf dem Ansatz, den Sie verfolgen.
Stattdessen müssen Sie ein verallgemeinertes lineares Modell mit einer Poisson-Antwort anpassen. SPSS kann dies nur tun, wenn Sie für das entsprechende Modul bezahlt haben. Daher würde ich ein Upgrade auf R vorschlagen.
Sie werden immer noch das Problem haben, Koeffizienten zu interpretieren, aber dies ist zweitrangig, da es wichtig ist, ein Modell zu haben, das grundsätzlich angemessen ist.
quelle
Ich stimme anderen Befragten zu, insbesondere in Bezug auf die Form des Modells. Wenn ich jedoch die Motivation Ihrer Frage verstehe, sprechen Sie das allgemeine Publikum an und möchten das Wesentliche vermitteln(theoretische) Bedeutung Ihrer Analyse. Zu diesem Zweck vergleiche ich vorhergesagte Werte (z. B. geschätzte verpasste Tage) unter verschiedenen "Szenarien". Basierend auf dem von Ihnen ausgewählten Modell können Sie die erwartete Anzahl oder den erwarteten Wert der abhängigen Variablen vergleichen, wenn sich die Prädiktoren auf bestimmten festen Werten befinden (z. B. deren Median oder Null), und dann zeigen, wie sich die Prädiktoren "sinnvoll" ändern beeinflusst die Vorhersagen. Natürlich müssen Sie die Daten wieder in den ursprünglichen, verständlichen Maßstab umwandeln, mit dem Sie beginnen. Ich sage "sinnvolle Änderung", weil die standardmäßige "Änderung um eine Einheit in X" oft nicht den tatsächlichen Import oder das Fehlen einer unabhängigen Variablen vermittelt. Bei "Anwesenheitsdaten" bin ich mir nicht sicher, was eine solche Änderung sein würde. (Wenn ein Schüler 2010 keine Tage und 2011 einen Tag verpasst hat, Ich bin mir nicht sicher, ob wir etwas lernen würden. Aber ich weiß es nicht.)
quelle
Wenn wir das Modell , können wir erwarten, dass eine Zunahme von 1 Einheit eine Zunahme von eine Einheit ergibt. Wenn wir stattdessen , erwarten wir eine Zunahme von 1 Prozent um eine Erhöhung der -Einheit in Y zu ergeben.X Y = b log ( X ) X b log ( 1,01 )Y=bX X Y=blog(X) X blog(1.01)
Edit: whoops, habe nicht bemerkt, dass deine abhängige Variable auch log transformiert wurde. Hier ist ein Link mit einem guten Beispiel, das alle drei Situationen beschreibt:
1) nur Y wird transformiert 2) nur die Prädiktoren werden transformiert 3) sowohl Y als auch die Prädiktoren werden transformiert
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm
quelle
Ich benutze oft die Log-Transformation, aber ich neige dazu, binäre Kovariaten zu verwenden, weil dies zu einer natürlichen Interpretation in Bezug auf Multiplikatoren führt. Angenommen, Sie möchten das gegebene vorhersagen , beispielsweise 3 binäre Kovariaten , und die Werte in . Anstatt zu präsentieren:X 1 X 2 X 3 { 0 , 1 }Y X1 X2 X3 {0,1}
Sie können einfach zeigen:
wobei: , und Multiplikatoren sind. Das heißt, jedes Mal, wenn die Kovariate gleich 1 ist, wird die Vorhersage mit multipliziert . Wenn beispielsweise , und , lautet Ihre Vorhersage:M1=eW1 M2=eW2 M3=eW3 Xi Mi X1=0 X2=1 X3=1
Ich verwende weil dies nicht genau die Vorhersage des Mittelwerts von : Der Mittelwertparameter einer logarithmischen Normalverteilung ist im Allgemeinen nicht der Mittelwert der Zufallsvariablen (wie es bei der klassischen linearen Regression ohne die der Fall ist log-transform). Ich habe hier keinen genauen Bezug, aber ich denke, dies ist eine einfache Argumentation.≊ Y
quelle