Ich verstehe jetzt, dass dies von Verteilungen und Normalität in Prädiktoren abhängt
Durch die Protokolltransformation werden die Daten einheitlicher
Im Allgemeinen ist dies falsch - aber selbst wenn dies der Fall wäre, warum sollte Einheitlichkeit wichtig sein?
Betrachten Sie zum Beispiel
i) Ein binärer Prädiktor, der nur die Werte 1 und 2 annimmt. Wenn Protokolle verwendet werden, bleibt er als binärer Prädiktor übrig, der nur die Werte 0 und log 2 annimmt. Er beeinflusst nichts wirklich außer dem Abfangen und Skalieren von Begriffen, die diesen Prädiktor betreffen. Sogar der p-Wert des Prädiktors würde unverändert bleiben, ebenso wie die angepassten Werte.
ii) Betrachten Sie einen Prädiktor für den linken Versatz. Nehmen Sie jetzt Protokolle. Es wird in der Regel mehr links schief.
iii) einheitliche Daten werden nach links verschoben
(Es ist jedoch oft nicht immer eine so extreme Veränderung)
weniger von Ausreißern betroffen
Im Allgemeinen ist dies falsch. Betrachten Sie niedrige Ausreißer in einem Prädiktor.
Ich dachte darüber nach, alle meine kontinuierlichen Variablen, die nicht von Hauptinteresse sind, in ein Protokoll umzuwandeln
Zu welchem Ende? Wenn die Beziehungen ursprünglich linear wären, wären sie nicht länger.
Und wenn sie bereits gekrümmt wären, könnte dies automatisch dazu führen, dass sie schlechter (gebogener) und nicht besser werden.
- -
Das Erstellen von Protokollen eines Prädiktors (ob von primärem Interesse oder nicht) mag manchmal geeignet sein, ist aber nicht immer so.
Meiner Meinung nach ist es nicht sinnvoll, eine Protokolltransformation (und auch keine Datentransformation) durchzuführen . Wie bereits erwähnt, sind einige Transformationen je nach Daten entweder ungültig oder nutzlos . Ich empfehle Ihnen dringend, das folgende IMHO ausgezeichnete Einführungsmaterial zur Datentransformation zu lesen : http://fmwww.bc.edu/repec/bocode/t/transint.html . Bitte beachten Sie, dass die Codebeispiele in diesem Dokument in der Stata- Sprache verfasst sind. Andernfalls ist das Dokument allgemein genug und daher auch für Nicht-Stata-Benutzer nützlich.
In diesem Artikel finden Sie einige einfache Techniken und Werkzeuge für den Umgang mit häufig auftretenden datenbezogenen Problemen wie mangelnde Normalität , Ausreißer und Mischungsverteilungen (beachten Sie, dass die Schichtung als Ansatz für den Umgang mit der Mischungsverteilung höchstwahrscheinlich die einfachste ist - Ein allgemeinerer und komplexerer Ansatz hierfür ist die Mischungsanalyse (auch als endliche Mischungsmodelle bezeichnet) , deren Beschreibung den Rahmen dieser Antwort sprengt. Box-Cox-Transformation, kurz in den beiden obigen Referenzen erwähnt, ist eine ziemlich wichtige Datentransformation, insbesondere für nicht normale Daten (mit einigen Einschränkungen). Weitere Informationen zur Box-Cox-Transformation finden Sie in diesem Einführungsartikel .
quelle
Die Protokolltransformation verbessert die Dinge nicht IMMER. Offensichtlich können Sie Variablen, die Null oder negative Werte erreichen, nicht logarithmisch transformieren, und selbst positive Variablen, die Null umarmen, können bei logarithmischer Transformation negative Ausreißer aufweisen.
Sie sollten nicht nur routinemäßig alles protokollieren, sondern es ist auch eine gute Praxis, über das Transformieren ausgewählter positiver Prädiktoren (geeigneterweise häufig ein Protokoll, aber möglicherweise etwas anderes) nachzudenken, bevor Sie ein Modell anpassen. Gleiches gilt für die Antwortvariable. Auch Fachwissen ist wichtig. Eine Theorie aus der Physik oder Soziologie oder was auch immer könnte natürlich zu bestimmten Transformationen führen. Wenn Sie Variablen sehen, die positiv verzerrt sind, kann im Allgemeinen ein Protokoll (oder möglicherweise eine Quadratwurzel oder ein Kehrwert) hilfreich sein.
Einige Regressionstexte scheinen darauf hinzudeuten, dass Sie sich diagnostische Diagramme ansehen müssen, bevor Sie Transformationen in Betracht ziehen, aber ich bin anderer Meinung. Ich denke, es ist besser, diese Auswahl so gut wie möglich zu treffen, bevor Sie Modelle montieren, damit Sie den bestmöglichen Ausgangspunkt haben. Schauen Sie sich dann die Diagnose an, um festzustellen, ob Sie von dort aus Anpassungen vornehmen müssen.
quelle
snoq
Datensatz in diesem CrossValidated-Thread logarithmisch transformieren (unter Berücksichtigung des Ziels, eine Mischung aus Gaußschen Werten anzupassen )?1) Zähldaten (y> 0) -> log (y) oder y = exp (b0 + biXi) 2) Zähldaten + Null (y> = 0) -> Hürdenmodell (Binomial + Zählreg.) 3) alle multyplikative Effekte (& Fehler) sind additiv 4) Varianz ~ Mittelwert -> log (y) oder y = exp (b0 + biXi) 5) ...
quelle