Warum werden verzerrte Daten für die Modellierung nicht bevorzugt?

16

In den meisten Fällen, in denen von Variablentransformationen gesprochen wird (sowohl für Prädiktor- als auch für Antwortvariablen), werden Möglichkeiten zur Behandlung von Datenfehlern (wie Protokolltransformation, Box- und Cox-Transformation usw.) erörtert. Was ich nicht verstehen kann, ist, warum das Entfernen von Versatz als eine solche gängige Best Practice angesehen wird? Wie wirkt sich die Schiefe auf die Leistung verschiedener Arten von Modellen aus, z. B. baumbasierte Modelle, lineare Modelle und nicht lineare Modelle? Welche Modelle sind stärker von Versatz betroffen und warum?

Saurav Shekhar
quelle
2
Um eine vernünftige Antwort zu geben, erläutern Sie bitte, was Sie unter a) Daten, b) Modellierung und c) Modellen verstehen. Die Schlüsselfrage - wie üblich - ist das, was Sie tun wollen es . Aber was ist es ?
Cherub
Ich habe meine Antwort aktualisiert, um einige relevante Zitate hinzuzufügen und die Ansprüche zu erweitern.
Tavrock

Antworten:

11

Beim Entfernen des Versatzes wird durch Transformationen versucht, den Datensatz der Gaußschen Verteilung zu folgen. Der Grund ist einfach, dass, wenn der Datensatz so transformiert werden kann, dass er statistisch nahe genug an einem Gaußschen Datensatz liegt, ihm der größtmögliche Werkzeugsatz zur Verfügung steht. Tests wie ANOVA, Test, Test und viele andere hängen von den Daten mit konstanter Varianz ( ) ab oder folgen einer Gaußschen Verteilung. 1tFσ2

Es gibt Modelle, die robuster sind 1 (wie die Verwendung von Levine Test statt Bartlett-Test), aber die meisten Tests und Modelle , die mit anderen Distributionen gut funktionieren verlangen , dass Sie wissen , was Verteilung Sie sind Arbeiten mit und sind in der Regel nur für eine einzige Verteilung aneignen auch.

So zitieren Sie das NIST Engineering Statistics Handbook :

Bei der Regressionsmodellierung wenden wir häufig Transformationen an, um die folgenden zwei Ziele zu erreichen:

  1. um die Homogenität der Varianzannahme für die Fehler zu befriedigen.
  2. um die Anpassung so weit wie möglich zu linearisieren.

Sorgfalt und Urteilsvermögen sind erforderlich, damit diese beiden Ziele in Konflikt geraten können. Im Allgemeinen versuchen wir zunächst, homogene Varianzen zu erzielen, und gehen dann auf das Problem der Linearisierung der Anpassung ein.

und an einem anderen Ort

Ein Modell mit einer Antwortvariablen und einer einzelnen unabhängigen Variablen hat die Form:

Y.ich=f(Xich)+Eich

Wobei die Antwortvariable ist, die unabhängige Variable ist, die lineare oder nichtlineare Anpassungsfunktion ist und die Zufallskomponente ist. Für ein gutes Modell sollte sich die Fehlerkomponente wie folgt verhalten:Y.XfE

  1. zufällige Zeichnungen (dh unabhängig);
  2. von einer festen Verteilung;
  3. mit festem Standort; und
  4. mit fester Variation.

Außerdem wird für Anpassungsmodelle normalerweise weiterhin angenommen, dass die feste Verteilung normal ist und die feste Position Null ist. Für ein gutes Modell sollte die festgelegte Abweichung so gering wie möglich sein. Eine notwendige Komponente von Anpassungsmodellen besteht darin, diese Annahmen für die Fehlerkomponente zu überprüfen und zu bewerten, ob die Abweichung für die Fehlerkomponente ausreichend gering ist. Das Histogramm, das Verzögerungsdiagramm und das Normalwahrscheinlichkeitsdiagramm werden verwendet, um die festen Verteilungs-, Orts- und Variationsannahmen für die Fehlerkomponente zu überprüfen. Der Plot der Antwortvariablen und der vorhergesagten Werte gegen die unabhängige Variable wird verwendet, um zu beurteilen, ob die Variation ausreichend klein ist. Die Diagramme der Residuen gegen die unabhängige Variable und die vorhergesagten Werte werden verwendet, um die Unabhängigkeitsannahme zu bewerten.

Die Bewertung der Gültigkeit und Qualität der Anpassung anhand der oben genannten Annahmen ist ein absolut wichtiger Bestandteil des Modellanpassungsprozesses. Keine Anpassung sollte ohne einen geeigneten Modellvalidierungsschritt als vollständig betrachtet werden.


  1. (abgekürzte) Zitate für Ansprüche:
    • Breyfogle III, Forrest W. Implementierung von Six Sigma
    • Pyzdek, Thomas. Das Six Sigma Handbuch
    • Montgomery, Douglas C. Einführung in die statistische Qualitätskontrolle
    • Ed. Cubberly, Willaim H und Bakerjan, Ramon. Handbuch für Werkzeug- und Fertigungsingenieure: Desktop Edition
Tavrock
quelle
Vielen Dank für Ihre Antwort Tavrock. Aber meines Wissens werden ANOVA oder t-Test von F-Test nicht in Entscheidungsbäumen verwendet (zumindest um Splits durchzuführen). Bei der linearen Regression hängen die meisten Annahmen bezüglich der Form der Verteilung mit den Fehlern zusammen. Wenn Fehler verzerrt sind, schlagen diese Tests fehl. Dies bedeutet also, dass die Schiefe der Prädiktorvariablen die Vorhersagequalität für diese Modelle nicht beeinflussen sollte. Bitte korrigieren Sie mich, wenn ich falsch liege. Danke noch einmal!!
Saurav Shekhar
1
Können Sie Ihre Frage klären - möchten Sie etwas über die Transformation der Antwortvariablen oder über die Transformation der Prädiktorvariablen oder über beides wissen?
Groovy_Worm
1
@Groovy_Worm danke, dass Sie darauf hingewiesen haben. Bei dieser Frage geht es mir sowohl um Prädiktor- als auch um Antwortvariablen.
Saurav Shekhar
Möglicherweise suchen Sie nach einer verallgemeinerten linearen Modellierung (GLM) . Bei der linearen Regression nehmen Sie normalerweise an, dass Ihre abhängige Variable einer Gaußschen Verteilung folgt, die von den Zufallsvariablen X und e abhängig ist . Mit GLM können Sie Ihr Universum erweitern, um (fast) jede Art von Verteilung für Ihre abhängige Variable, Ihre unabhängigen Variablen, zu ermöglichen (über eine von Ihnen angegebene Verknüpfungsfunktion ).
Chris K
7

Dies gilt hauptsächlich für parametrische Modelle. Wie Tavrock sagte, funktioniert die Gaußsche Approximation der Parameterschätzung besser, wenn die Antwortvariable nicht verzerrt ist, da die symmetrische Verteilung viel schneller zu Gaußsch konvergiert als die verzerrten. Wenn Sie Daten verzerrt haben, bedeutet dies, dass durch die Transformation der Daten der Datensatz kleiner wird, um angemessene Konfidenzintervalle und Tests für Parameter zu verwenden (Vorhersageintervalle sind immer noch nicht gültig, da Sie nicht sagen können, dass Ihre Daten jetzt symmetrisch sind Es ist normal, dass nur die Parameterschätzungen nach Gauß konvergieren.

Diese ganze Rede handelt von der bedingten Verteilung von Antwortvariablen, man könnte sagen: von Fehlern. Wenn Sie jedoch eine Variable haben, die bei Betrachtung ihrer bedingungslosen Verteilung verzerrt zu sein scheint, könnte dies wahrscheinlich bedeuten, dass sie eine verzerrte bedingte Verteilung hat. Wenn Sie ein Modell auf Ihre Daten anwenden, werden Sie sich darüber klar werden.

In Entscheidungsbäumen werde ich zunächst auf eines hinweisen: Es hat keinen Sinn, verzerrte erklärende Variablen zu transformieren, monotone Funktionen werden nichts ändern. Dies kann bei linearen Modellen hilfreich sein, nicht jedoch bei Entscheidungsbäumen. Dies bedeutet, dass CART-Modelle Varianzanalysen zur Durchführung von Spits verwenden und Varianz für Ausreißer und verzerrte Daten sehr empfindlich ist. Dies ist der Grund, warum die Transformation Ihrer Antwortvariablen die Modellgenauigkeit erheblich verbessern kann.

carlo
quelle
1

Ich glaube, dies ist in hohem Maße ein Artefakt der Tradition, aufgrund ihrer schönen Eigenschaften zu Gaußschen zurückzukehren.

Es gibt jedoch gute Verteilungsalternativen, z. B. das verallgemeinerte Gamma, das eine Vielzahl unterschiedlicher verzerrter Verteilungsformen und -formen umfasst

hervorstechend
quelle
1

Wie bereits von anderen Lesern erwähnt, sind weitere Hintergrundinformationen zu den geplanten Ergebnissen mit Ihren Daten hilfreich.

Davon abgesehen gibt es im Bereich der Statistik zwei wichtige Lehren, die als zentraler Grenzwertsatz und als Gesetz der großen Zahlen bekannt sind . Das heißt, je mehr Beobachtungen man hat, desto mehr wird erwartet, dass sich ein Datensatz einer Normalverteilung annähert , einer mit einem gleichen Mittelwert, Median und Modus. Nach dem Gesetz der großen Zahlen wird erwartet, dass die Abweichung zwischen dem erwarteten und dem tatsächlichen Wert bei ausreichenden Beobachtungen schließlich auf Null abfällt.

Daher ermöglicht eine Normalverteilung dem Forscher, genauere Vorhersagen über eine Population zu treffen, wenn die zugrunde liegende Verteilung bekannt ist.

Schiefe ist, wenn eine Verteilung davon abweicht, dh eine Abweichung kann positiv oder negativ sein. Der zentrale Grenzwertsatz besagt jedoch, dass bei einer hinreichend großen Anzahl von Beobachtungen das Ergebnis eine annähernd normale Verteilung sein wird. Wenn die Verteilung also nicht normal ist, wird immer empfohlen, zuerst weitere Daten zu erfassen, bevor Sie versuchen, die zugrunde liegende Struktur der Verteilung mithilfe der von Ihnen erwähnten Transformationsverfahren zu ändern.

Michael Grogan
quelle
1

Wann ist Schiefe eine schlechte Sache? Symmetrische Verteilungen (im Allgemeinen, aber nicht immer: z. B. nicht für die Cauchy-Verteilung) haben Median, Modus und Mittelwert sehr nahe beieinander. Wenn wir also den Standort einer Population messen möchten , ist es hilfreich, den Median, den Modus und den Mittelwert nahe beieinander zu haben.

ln0=-

Beispiel aus 25 einkommen in kilo dollar aus dem www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

Die Neigung der ersten Spalte beträgt 0,99 und der zweiten -0,05. Die erste Spalte ist wahrscheinlich nicht normal (Shapiro-Wilk p = 0,04) und die zweite nicht signifikant nicht normal (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

exp[bedeutenln(k$)] 

Offensichtlich ist das logarithmische Normal hier ein besseres Modell und der mittlere Logarithmus gibt uns ein besseres Maß für die Position. Dass dies bekannt ist, wenn auch nicht vollständig verstanden, zeigt der Satz "Ich erwarte ein 5-stelliges Gehalt".

Carl
quelle
0

Die Ergebnisse basieren größtenteils auf Gaußschen Annahmen. Wenn Sie eine verzerrte Verteilung haben, haben Sie keine Gauß-Verteilung. Vielleicht sollten Sie verzweifelt versuchen, sie in diese umzuwandeln.

ABER natürlich kannst du es mit GLM versuchen.

Rotes Rauschen
quelle
0

Ich denke, es geht nicht nur ums Modellieren, sondern unser Gehirn ist nicht dafür geeignet, mit stark verzerrten Daten zu arbeiten. Zum Beispiel ist es in der Behavioural Finance bekannt, dass wir die sehr niedrigen oder hohen Wahrscheinlichkeiten nicht gut einschätzen können.

Aksakal
quelle