In den meisten Fällen, in denen von Variablentransformationen gesprochen wird (sowohl für Prädiktor- als auch für Antwortvariablen), werden Möglichkeiten zur Behandlung von Datenfehlern (wie Protokolltransformation, Box- und Cox-Transformation usw.) erörtert. Was ich nicht verstehen kann, ist, warum das Entfernen von Versatz als eine solche gängige Best Practice angesehen wird? Wie wirkt sich die Schiefe auf die Leistung verschiedener Arten von Modellen aus, z. B. baumbasierte Modelle, lineare Modelle und nicht lineare Modelle? Welche Modelle sind stärker von Versatz betroffen und warum?
16
Antworten:
Beim Entfernen des Versatzes wird durch Transformationen versucht, den Datensatz der Gaußschen Verteilung zu folgen. Der Grund ist einfach, dass, wenn der Datensatz so transformiert werden kann, dass er statistisch nahe genug an einem Gaußschen Datensatz liegt, ihm der größtmögliche Werkzeugsatz zur Verfügung steht. Tests wie ANOVA, Test, Test und viele andere hängen von den Daten mit konstanter Varianz ( ) ab oder folgen einer Gaußschen Verteilung. 1t F σ2
Es gibt Modelle, die robuster sind 1 (wie die Verwendung von Levine Test statt Bartlett-Test), aber die meisten Tests und Modelle , die mit anderen Distributionen gut funktionieren verlangen , dass Sie wissen , was Verteilung Sie sind Arbeiten mit und sind in der Regel nur für eine einzige Verteilung aneignen auch.
So zitieren Sie das NIST Engineering Statistics Handbook :
und an einem anderen Ort
quelle
Dies gilt hauptsächlich für parametrische Modelle. Wie Tavrock sagte, funktioniert die Gaußsche Approximation der Parameterschätzung besser, wenn die Antwortvariable nicht verzerrt ist, da die symmetrische Verteilung viel schneller zu Gaußsch konvergiert als die verzerrten. Wenn Sie Daten verzerrt haben, bedeutet dies, dass durch die Transformation der Daten der Datensatz kleiner wird, um angemessene Konfidenzintervalle und Tests für Parameter zu verwenden (Vorhersageintervalle sind immer noch nicht gültig, da Sie nicht sagen können, dass Ihre Daten jetzt symmetrisch sind Es ist normal, dass nur die Parameterschätzungen nach Gauß konvergieren.
Diese ganze Rede handelt von der bedingten Verteilung von Antwortvariablen, man könnte sagen: von Fehlern. Wenn Sie jedoch eine Variable haben, die bei Betrachtung ihrer bedingungslosen Verteilung verzerrt zu sein scheint, könnte dies wahrscheinlich bedeuten, dass sie eine verzerrte bedingte Verteilung hat. Wenn Sie ein Modell auf Ihre Daten anwenden, werden Sie sich darüber klar werden.
In Entscheidungsbäumen werde ich zunächst auf eines hinweisen: Es hat keinen Sinn, verzerrte erklärende Variablen zu transformieren, monotone Funktionen werden nichts ändern. Dies kann bei linearen Modellen hilfreich sein, nicht jedoch bei Entscheidungsbäumen. Dies bedeutet, dass CART-Modelle Varianzanalysen zur Durchführung von Spits verwenden und Varianz für Ausreißer und verzerrte Daten sehr empfindlich ist. Dies ist der Grund, warum die Transformation Ihrer Antwortvariablen die Modellgenauigkeit erheblich verbessern kann.
quelle
Ich glaube, dies ist in hohem Maße ein Artefakt der Tradition, aufgrund ihrer schönen Eigenschaften zu Gaußschen zurückzukehren.
Es gibt jedoch gute Verteilungsalternativen, z. B. das verallgemeinerte Gamma, das eine Vielzahl unterschiedlicher verzerrter Verteilungsformen und -formen umfasst
quelle
Wie bereits von anderen Lesern erwähnt, sind weitere Hintergrundinformationen zu den geplanten Ergebnissen mit Ihren Daten hilfreich.
Davon abgesehen gibt es im Bereich der Statistik zwei wichtige Lehren, die als zentraler Grenzwertsatz und als Gesetz der großen Zahlen bekannt sind . Das heißt, je mehr Beobachtungen man hat, desto mehr wird erwartet, dass sich ein Datensatz einer Normalverteilung annähert , einer mit einem gleichen Mittelwert, Median und Modus. Nach dem Gesetz der großen Zahlen wird erwartet, dass die Abweichung zwischen dem erwarteten und dem tatsächlichen Wert bei ausreichenden Beobachtungen schließlich auf Null abfällt.
Daher ermöglicht eine Normalverteilung dem Forscher, genauere Vorhersagen über eine Population zu treffen, wenn die zugrunde liegende Verteilung bekannt ist.
Schiefe ist, wenn eine Verteilung davon abweicht, dh eine Abweichung kann positiv oder negativ sein. Der zentrale Grenzwertsatz besagt jedoch, dass bei einer hinreichend großen Anzahl von Beobachtungen das Ergebnis eine annähernd normale Verteilung sein wird. Wenn die Verteilung also nicht normal ist, wird immer empfohlen, zuerst weitere Daten zu erfassen, bevor Sie versuchen, die zugrunde liegende Struktur der Verteilung mithilfe der von Ihnen erwähnten Transformationsverfahren zu ändern.
quelle
Wann ist Schiefe eine schlechte Sache? Symmetrische Verteilungen (im Allgemeinen, aber nicht immer: z. B. nicht für die Cauchy-Verteilung) haben Median, Modus und Mittelwert sehr nahe beieinander. Wenn wir also den Standort einer Population messen möchten , ist es hilfreich, den Median, den Modus und den Mittelwert nahe beieinander zu haben.
Beispiel aus 25 einkommen in kilo dollar aus dem www.
Die Neigung der ersten Spalte beträgt 0,99 und der zweiten -0,05. Die erste Spalte ist wahrscheinlich nicht normal (Shapiro-Wilk p = 0,04) und die zweite nicht signifikant nicht normal (p = 0,57).
Offensichtlich ist das logarithmische Normal hier ein besseres Modell und der mittlere Logarithmus gibt uns ein besseres Maß für die Position. Dass dies bekannt ist, wenn auch nicht vollständig verstanden, zeigt der Satz "Ich erwarte ein 5-stelliges Gehalt".
quelle
Die Ergebnisse basieren größtenteils auf Gaußschen Annahmen. Wenn Sie eine verzerrte Verteilung haben, haben Sie keine Gauß-Verteilung. Vielleicht sollten Sie verzweifelt versuchen, sie in diese umzuwandeln.
ABER natürlich kannst du es mit GLM versuchen.
quelle
Ich denke, es geht nicht nur ums Modellieren, sondern unser Gehirn ist nicht dafür geeignet, mit stark verzerrten Daten zu arbeiten. Zum Beispiel ist es in der Behavioural Finance bekannt, dass wir die sehr niedrigen oder hohen Wahrscheinlichkeiten nicht gut einschätzen können.
quelle