Wann sollten wir unabhängige Variablen / Features diskretisieren / binieren und wann nicht?
Meine Versuche, die Frage zu beantworten:
- Im Allgemeinen sollten wir nicht binieren, da Binning Informationen verlieren wird.
- Binning erhöht tatsächlich den Freiheitsgrad des Modells, sodass es nach dem Binning zu einer Überanpassung kommen kann. Wenn wir ein "High Bias" -Modell haben, ist das Binning vielleicht nicht schlecht, aber wenn wir ein "High Varianz" -Modell haben, sollten wir das Binning vermeiden.
- Es hängt davon ab, welches Modell wir verwenden. Wenn es sich um einen linearen Modus handelt und die Daten viele "Ausreißer" aufweisen, ist die Binning-Wahrscheinlichkeit besser. Wenn wir ein Baummodell haben, dann machen Ausreißer und Binning zu viel Unterschied.
Habe ich recht? und was noch?
Ich dachte, diese Frage sollte oft gestellt werden, aber ich kann sie nicht nur in diesen Beiträgen im Lebenslauf finden
Sollten wir kontinuierliche Variablen ablegen?
Was ist der Vorteil, wenn eine kontinuierliche Prädiktorvariable aufgelöst wird?
Antworten:
Anscheinend suchen Sie auch eine prädiktive Antwort. Deshalb habe ich in R eine kurze Demonstration von zwei Ansätzen zusammengestellt
Im Folgenden habe ich den Code für eine Funktion angegeben, mit der die beiden Methoden automatisch für eine bestimmte wahre Signalfunktion verglichen werden
Diese Funktion erstellt aus einem bestimmten Signal verrauschte Trainings- und Testdatensätze und passt dann eine Reihe linearer Regressionen an die Trainingsdaten zweier Typen an
cuts
Modell enthält gruppierte Prädiktoren, die durch Segmentieren des Datenbereichs in halboffene Intervalle gleicher Größe und anschließendes Erstellen von binären Prädiktoren gebildet werden, die angeben, zu welchem Intervall jeder Trainingspunkt gehört.splines
Modell enthält eine natürliche kubische Spline-Basiserweiterung mit Knoten, die über den gesamten Bereich des Prädiktors gleichmäßig verteilt sind.Die Argumente sind
signal
: Eine Funktion mit einer Variablen, die die zu schätzende Wahrheit darstellt.N
: Die Anzahl der Proben, die sowohl in Trainings- als auch in Testdaten enthalten sein sollen.noise
: Die Menge des zufälligen Gaußschen Rauschens, die dem Trainings- und Testsignal hinzugefügt wird.range
: Der Bereich der Trainings- und Testdaten,x
Daten, die innerhalb dieses Bereichs einheitlich erzeugt werden.max_paramters
: Die maximale Anzahl von Parametern, die in einem Modell geschätzt werden sollen. Dies ist sowohl die maximale Anzahl von Segmenten imcuts
Modell als auch die maximale Anzahl von Knoten imsplines
Modell.Beachten Sie, dass die Anzahl der im
splines
Modell geschätzten Parameter der Anzahl der Knoten entspricht, sodass die beiden Modelle fair verglichen werden.Das Rückgabeobjekt aus der Funktion hat einige Komponenten
signal_plot
: Eine Darstellung der Signalfunktion.data_plot
: Ein Streudiagramm der Trainings- und Testdaten.errors_comparison_plot
: Ein Diagramm, das die Entwicklung der Summe der quadratischen Fehlerrate für beide Modelle über einen Bereich der Anzahl der geschätzten Parameter zeigt.Ich werde mit zwei Signalfunktionen demonstrieren. Die erste ist eine Sinuswelle mit einem sich überlagernden linearen Trend
So entwickeln sich die Fehlerraten
Das zweite Beispiel ist eine verrückte Funktion, die ich nur für diese Art von Dingen verwende, zeichne und sehe
Und zum Spaß gibt es hier eine langweilige lineare Funktion
Sie können sehen, dass:
So Splines ist immer von einem prädiktiven Gesichtspunkt wird bevorzugt.
Code
Hier ist der Code, mit dem ich diese Vergleiche erstellt habe. Ich habe alles in eine Funktion verpackt, damit Sie es mit Ihren eigenen Signalfunktionen ausprobieren können. Sie müssen die
ggplot2
undsplines
R-Bibliotheken importieren .quelle
Aggregation ist inhaltlich sinnvoll (unabhängig davon, ob der Forscher dies weiß oder nicht).
Man sollte Daten, einschließlich unabhängiger Variablen, basierend auf den Daten selbst binieren, wenn man will:
Statistische Macht zu hemorrhagieren.
Assoziationsmaßnahmen zu beeinflussen.
Ich glaube, eine Literatur, die mit Ghelke und Biehl (1934 - definitiv eine Lektüre wert - beginnt und einige leicht genug zu durchführende Computersimulationen nahe legt, die man für sich selbst ausführen kann) und insbesondere mit der Literatur über das Problem der änderbaren Flächeneinheiten (Openshaw) fortfährt 1983; Dudley 1991; Lee und Kemp 2000) machen beide Punkte deutlich.
Es sei denn, man hat eine A-priori- Theorie der Aggregationsskala (wie viele Einheiten zu aggregieren sind) und der Kategorisierungsfunktion der Aggregation (welche einzelnen Beobachtungen in welchen Aggregateinheiten enden) hat, sollte man nicht aggregieren. In der Epidemiologie kümmern wir uns beispielsweise um die Gesundheit des Einzelnen und um die Gesundheit der Bevölkerung . Letztere sind nicht einfach zufällige Sammlungen der ersteren, sondern werden zum Beispiel durch geopolitische Grenzen, soziale Umstände wie ethnische Kategorisierung, Krebsstatus und Geschichtskategorien usw. definiert. (Siehe zum Beispiel Krieger, 2012)
Literaturhinweise
Dudley, G. (1991). Skalierung, Aggregation und das Problem mit den veränderbaren Flächeneinheiten . [pay-walled] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE und Biehl, K. (1934). Bestimmte Auswirkungen der Gruppierung auf die Größe des Korrelationskoeffizienten im Material des Zensus-Trakts . [pay-walled] Journal der American Statistical Association , 29 (185): 169–170.
Krieger, N. (2012). Wer und was ist eine „Bevölkerung“? historische Debatten, aktuelle Kontroversen und Implikationen für das Verständnis der „Volksgesundheit“ und die Beseitigung gesundheitlicher Ungleichheiten . The Milbank Quarterly , 90 (4): 634–681.
Lee, HTK und Kemp, Z. (2000). Hierarchisches Denken und analytische Online-Verarbeitung von räumlichen und zeitlichen Daten . In Proceedings des 9. Internationalen Symposiums zum Umgang mit räumlichen Daten , Peking, VR China. Internationale Geographische Union.
Openshaw, S. (1983). Das Problem mit den veränderbaren Flächeneinheiten. Konzepte und Techniken der modernen Geographie . Geo Books, Norwich, Großbritannien.
quelle