Warum nicht alle Variablen log-transformieren, die nicht von Hauptinteresse sind?

10

In Büchern und Diskussionen heißt es oft, dass bei Problemen (von denen es einige gibt) mit einem Prädiktor eine logarithmische Transformation möglich ist. Ich verstehe jetzt, dass dies von Verteilungen abhängt und dass die Normalität in Prädiktoren keine Annahme einer Regression ist. Durch die Protokolltransformation werden Daten jedoch einheitlicher, weniger von Ausreißern betroffen und so weiter.

Ich dachte darüber nach, alle meine kontinuierlichen Variablen zu protokollieren, die nicht von zentraler Bedeutung sind, dh Variablen, die ich nur anpasse.

Ist das falsch? Gut? Nutzlos?

Adam Robinsson
quelle

Antworten:

24

Ich verstehe jetzt, dass dies von Verteilungen und Normalität in Prädiktoren abhängt

Durch die Protokolltransformation werden die Daten einheitlicher

Im Allgemeinen ist dies falsch - aber selbst wenn dies der Fall wäre, warum sollte Einheitlichkeit wichtig sein?

Betrachten Sie zum Beispiel

i) Ein binärer Prädiktor, der nur die Werte 1 und 2 annimmt. Wenn Protokolle verwendet werden, bleibt er als binärer Prädiktor übrig, der nur die Werte 0 und log 2 annimmt. Er beeinflusst nichts wirklich außer dem Abfangen und Skalieren von Begriffen, die diesen Prädiktor betreffen. Sogar der p-Wert des Prädiktors würde unverändert bleiben, ebenso wie die angepassten Werte.

Geben Sie hier die Bildbeschreibung ein

ii) Betrachten Sie einen Prädiktor für den linken Versatz. Nehmen Sie jetzt Protokolle. Es wird in der Regel mehr links schief.

Geben Sie hier die Bildbeschreibung ein

iii) einheitliche Daten werden nach links verschoben

Geben Sie hier die Bildbeschreibung ein

(Es ist jedoch oft nicht immer eine so extreme Veränderung)

weniger von Ausreißern betroffen

Im Allgemeinen ist dies falsch. Betrachten Sie niedrige Ausreißer in einem Prädiktor.

Geben Sie hier die Bildbeschreibung ein

Ich dachte darüber nach, alle meine kontinuierlichen Variablen, die nicht von Hauptinteresse sind, in ein Protokoll umzuwandeln

Zu welchem ​​Ende? Wenn die Beziehungen ursprünglich linear wären, wären sie nicht länger.

Geben Sie hier die Bildbeschreibung ein

Und wenn sie bereits gekrümmt wären, könnte dies automatisch dazu führen, dass sie schlechter (gebogener) und nicht besser werden.

- -

Das Erstellen von Protokollen eines Prädiktors (ob von primärem Interesse oder nicht) mag manchmal geeignet sein, ist aber nicht immer so.

Glen_b - Monica neu starten
quelle
2
Vielen Dank für diese großartige Antwort. Ich denke, dass viele von uns, zumindest ich, es so visualisieren mussten. Aber stimmen Sie auch zu, dass rechtsgerichtete Daten einer Protokolltransformation unterzogen werden sollten? Mehr als andere Schrägstellungen und Formen?
Adam Robinsson
1
Nicht generell nein. Vielleicht unter ganz bestimmten Bedingungen.
Glen_b -State Monica
Ich bin auch überrascht zu sehen, dass niemand die Interpretierbarkeit des Modells erwähnte. Wenn Sie die Transformation Ihrer abhängigen Variablen protokollieren, wird es etwas schwieriger, das Modell zu interpretieren - insbesondere für Laien oder solche ohne statistischen / mathematischen Hintergrund. Angenommen, Sie hatten ein Modell, das die Höhe eines Baumes in Fuß vorhersagte, wenn man den Umfang des Stammes in Zoll angibt. Die Interpretation von ist, dass bei einer Vergrößerung des Umfangs um einen Zoll die mittlere Höhe des Baumes um den Baumstamm von einem halben Fuß erhöht wird, was umständlicher ist (Fortsetzung)β^=0.50
StatsStudent
(nicht) als zum Beispiel sagen zu können, dass für eine Erhöhung des Stammumfangs um einen Zoll die mittlere Höhe des Baumes um einen halben Fuß erhöht wird. Letzteres ist ohne Taschenrechner leichter zu interpretieren und vor Ort leichter zu berechnen.
StatsStudent
10

Meiner Meinung nach ist es nicht sinnvoll, eine Protokolltransformation (und auch keine Datentransformation) durchzuführen . Wie bereits erwähnt, sind einige Transformationen je nach Daten entweder ungültig oder nutzlos . Ich empfehle Ihnen dringend, das folgende IMHO ausgezeichnete Einführungsmaterial zur Datentransformation zu lesen : http://fmwww.bc.edu/repec/bocode/t/transint.html . Bitte beachten Sie, dass die Codebeispiele in diesem Dokument in der Stata- Sprache verfasst sind. Andernfalls ist das Dokument allgemein genug und daher auch für Nicht-Stata-Benutzer nützlich.

In diesem Artikel finden Sie einige einfache Techniken und Werkzeuge für den Umgang mit häufig auftretenden datenbezogenen Problemen wie mangelnde Normalität , Ausreißer und Mischungsverteilungen (beachten Sie, dass die Schichtung als Ansatz für den Umgang mit der Mischungsverteilung höchstwahrscheinlich die einfachste ist - Ein allgemeinerer und komplexerer Ansatz hierfür ist die Mischungsanalyse (auch als endliche Mischungsmodelle bezeichnet) , deren Beschreibung den Rahmen dieser Antwort sprengt. Box-Cox-Transformation, kurz in den beiden obigen Referenzen erwähnt, ist eine ziemlich wichtige Datentransformation, insbesondere für nicht normale Daten (mit einigen Einschränkungen). Weitere Informationen zur Box-Cox-Transformation finden Sie in diesem Einführungsartikel .

Aleksandr Blekh
quelle
2
Großartige Referenzen Aleksandr. Vielen Dank, dass Sie diese dringend benötigte Skepsis geteilt haben. Vielen Dank.
Adam Robinsson
1
@AdamRobinsson: Es war mir ein Vergnügen, Adam! Ich bin froh, dass dir meine Antwort gefallen hat.
Aleksandr Blekh
8

Die Protokolltransformation verbessert die Dinge nicht IMMER. Offensichtlich können Sie Variablen, die Null oder negative Werte erreichen, nicht logarithmisch transformieren, und selbst positive Variablen, die Null umarmen, können bei logarithmischer Transformation negative Ausreißer aufweisen.

Sie sollten nicht nur routinemäßig alles protokollieren, sondern es ist auch eine gute Praxis, über das Transformieren ausgewählter positiver Prädiktoren (geeigneterweise häufig ein Protokoll, aber möglicherweise etwas anderes) nachzudenken, bevor Sie ein Modell anpassen. Gleiches gilt für die Antwortvariable. Auch Fachwissen ist wichtig. Eine Theorie aus der Physik oder Soziologie oder was auch immer könnte natürlich zu bestimmten Transformationen führen. Wenn Sie Variablen sehen, die positiv verzerrt sind, kann im Allgemeinen ein Protokoll (oder möglicherweise eine Quadratwurzel oder ein Kehrwert) hilfreich sein.

Einige Regressionstexte scheinen darauf hinzudeuten, dass Sie sich diagnostische Diagramme ansehen müssen, bevor Sie Transformationen in Betracht ziehen, aber ich bin anderer Meinung. Ich denke, es ist besser, diese Auswahl so gut wie möglich zu treffen, bevor Sie Modelle montieren, damit Sie den bestmöglichen Ausgangspunkt haben. Schauen Sie sich dann die Diagnose an, um festzustellen, ob Sie von dort aus Anpassungen vornehmen müssen.

Russ Lenth
quelle
Alle fügen hinzu, dass diese Überlegungen sowohl für wichtige als auch für unwichtige Prädiktoren gelten.
Russ Lenth
Danke @rvl! Ich bin immer verwirrt über die Diskordanz zwischen wann und wie man Transformationen wählt; In Büchern heißt es oft, dass man, wie Sie geschrieben haben, die Form aller Variablen überprüfen muss, bevor man die Regression berührt. Vielen Dank für Ihre Erkenntnisse.
Adam Robinsson
@rvl, danke für deine Antwort. Würden Sie den snoqDatensatz in diesem CrossValidated-Thread logarithmisch transformieren (unter Berücksichtigung des Ziels, eine Mischung aus Gaußschen Werten anzupassen )?
Zhubarb
-3

1) Zähldaten (y> 0) -> log (y) oder y = exp (b0 + biXi) 2) Zähldaten + Null (y> = 0) -> Hürdenmodell (Binomial + Zählreg.) 3) alle multyplikative Effekte (& Fehler) sind additiv 4) Varianz ~ Mittelwert -> log (y) oder y = exp (b0 + biXi) 5) ...

Ivan Kshnyasev
quelle
Diese Antwort ist schwer zu lesen und es ist unklar, ob versucht wird, die Frage zu beantworten.
Juho Kokkala
1
Die telegraphische und unformatierte Darstellung macht diese Antwort unverständlich. Denken Sie, Sie könnten Ihre Ideen ins Englische erweitern und für die Formeln verwenden? TEX
whuber