Eine Reihe von Quellen deuten darauf hin, dass die Diskretisierung (Kategorisierung) kontinuierlicher Variablen vor der statistischen Analyse viele negative Folgen hat (Referenzbeispiel [1] - [4] unten).
Umgekehrt [5] wird vermutet, dass einige Techniken des maschinellen Lernens bekanntermaßen bessere Ergebnisse liefern, wenn kontinuierliche Variablen diskretisiert werden (wobei auch zu beachten ist, dass überwachte Diskretisierungsmethoden eine bessere Leistung erbringen).
Ich bin gespannt, ob es aus statistischer Sicht allgemein akzeptierte Vorteile oder Rechtfertigungen für diese Praxis gibt.
Gibt es insbesondere eine Rechtfertigung für die Diskretisierung kontinuierlicher Variablen innerhalb einer GLM-Analyse?
[1] Royston P, Altman DG, Sauerbrei W. Dichotomisierung kontinuierlicher Prädiktoren in multipler Regression: eine schlechte Idee. Stat Med 2006; 25: 127 & ndash; 41
[2] Brunner J, Austin PC. Inflation der Typ I-Fehlerrate bei multipler Regression, wenn unabhängige Variablen mit Fehler gemessen werden. Das kanadische Journal of Statistics 2009; 37 (1): 33 & ndash; 46
[3] Irwin JR, McClelland GH. Negative Folgen der Dichotomisierung kontinuierlicher Prädiktorvariablen. Journal of Marketing Research 2003; 40: 366–371.
[4] Harrell Jr. FE. Probleme durch Kategorisierung kontinuierlicher Variablen. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Zugriff am 6.9.2004
[5] Kotsiantis, S.; Kanellopoulos, D. "Diskretisierungstechniken: Eine aktuelle Umfrage". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.
Antworten:
Der Zweck statistischer Modelle besteht darin, eine unbekannte, zugrunde liegende Realität zu modellieren (zu approximieren). Wenn Sie etwas diskretisieren, das von Natur aus kontinuierlich ist, sagen Sie, dass alle Antworten für einen Bereich von Prädiktorvariablen genau gleich sind, dann gibt es einen plötzlichen Sprung für das nächste Intervall. Glauben Sie wirklich, dass die natürliche Welt einen großen Unterschied in der Reaktion zwischen x-Werten von 9.999 und 10.001 aufweist, während zwischen 9.001 und 9.999 kein Unterschied besteht (vorausgesetzt, eines der Intervalle ist 9-10)? Ich kann mir keine natürlichen Prozesse vorstellen, die ich für plausibel halten würde.
Nun gibt es viele natürliche Prozesse, die nicht linear ablaufen. Die Änderung des Prädiktors von 8 auf 9 kann eine ganz andere Änderung der Antwort bewirken als eine Änderung von 10 auf 11. Daher kann ein diskretisierter Prädiktor besser passen als a lineare Beziehung, aber das liegt daran, dass mehr Freiheitsgrade erlaubt sind. Es gibt jedoch auch andere Möglichkeiten, zusätzliche Freiheitsgrade wie Polynome oder Splines zuzulassen, und diese Optionen ermöglichen es uns, zu bestrafen, um ein bestimmtes Maß an Glätte zu erreichen und etwas beizubehalten, das eine bessere Annäherung an den zugrunde liegenden natürlichen Prozess darstellt.
quelle
Bearbeiten: Aufgrund des Trends anderer Antworten, die ich sehe, ein kurzer Haftungsausschluss: Meine Antwort basiert auf einer Perspektive des maschinellen Lernens und nicht auf einer statistischen Modellierung.
Einige Modelle, wie z. B. Naive Bayes, funktionieren nicht mit kontinuierlichen Funktionen. Die Diskretisierung der Funktionen kann dazu beitragen, dass sie (viel) besser funktionieren. Im Allgemeinen werden Modelle, die sich nicht auf den "numerischen" Charakter des Features stützen (Entscheidungsbäume fallen mir ein), nicht zu stark beeinflusst, solange die Diskretisierung nicht zu brutal ist. Einige andere Modelle weisen jedoch eine erhebliche Underperformance auf, wenn die Kritik zu wichtig ist. Zum Beispiel werden GLMs absolut keinen Nutzen aus dem Prozess ziehen.
In einigen Fällen, wenn Speicher- / Verarbeitungszeit zu begrenzenden Faktoren werden, ermöglicht die Feature-Diskretisierung die Aggregation eines Datensatzes, wodurch dessen Größe und Speicher- / Rechenzeitverbrauch reduziert werden.
Unter dem Strich sollten Sie also keine Feature-Diskretisierung ausführen, wenn Sie nicht rechnerisch eingeschränkt sind und Ihr Modell keine diskreten Features benötigt. Ansonsten bedenken Sie es auf jeden Fall.
quelle