Was ist der Vorteil, wenn eine kontinuierliche Prädiktorvariable aufgelöst wird?

78

Ich frage mich, welchen Wert es hat, eine kontinuierliche Prädiktorvariable zu nehmen und sie zu zerlegen (z. B. in Quintile), bevor sie in einem Modell verwendet wird.

Es scheint mir, dass wir durch Binning der Variablen Informationen verlieren.

  • Ist dies nur so, dass wir nichtlineare Effekte modellieren können?
  • Wenn wir die Variable kontinuierlich halten würden und es nicht wirklich eine gerade lineare Beziehung wäre, müssten wir uns eine Art Kurve ausdenken, um die Daten am besten anzupassen?
Tom
quelle
12
1) Nein. Sie haben Recht, dass Binning Informationen verliert. Es sollte nach Möglichkeit vermieden werden. 2) Im Allgemeinen wird die Kurvenfunktion bevorzugt, die mit der Theorie hinter den Daten übereinstimmt.
O_Devinyak
8
Ich weiß nichts über Vorteile, aber es gibt eine Reihe von weithin bekannten Gefahren
Glen_b
2
Gelegentlich widerstrebendes Argument: Es kann die klinische Interpretation und die Darstellung der Ergebnisse vereinfachen - z. Der Blutdruck ist oft ein quadratischer Prädiktor, und ein Arzt kann die Verwendung von Cutoffs für niedrigen, normalen und hohen Blutdruck unterstützen und ist möglicherweise daran interessiert, diese breiten Gruppen zu vergleichen.
user20650
4
@ user20650: Ich bin mir nicht ganz sicher, ob ich Sie verstanden habe, aber wäre es nicht besser, das beste Modell zu finden, das Sie können, und dann die Vorhersagen dieses Modells zu verwenden, um etwas zu sagen, was Sie über breite Gruppen sagen möchten? Die „Hochdruckgruppe“ in meiner Studie hat nicht unbedingt die gleiche Druckverteilung wie die allgemeine Bevölkerung, sodass sich ihre Ergebnisse nicht verallgemeinern lassen.
Scortchi
7
Die vereinfachte klinische Interpretation ist ein Trugbild. Effektschätzungen aus kategorisierten stetigen Variablen sind nicht bekannt.
Frank Harrell

Antworten:

64

Sie haben in beiden Punkten Recht. Auf der Seite von Frank Harrell finden Sie eine lange Liste von Problemen mit dem Binning kontinuierlicher Variablen. Wenn Sie einige Fächer verwenden, werfen Sie viele Informationen in die Prädiktoren. Wenn Sie viele verwenden, tendieren Sie dazu, Wackelbewegungen in einer glatten, wenn nicht linearen Beziehung unterzubringen, und verbrauchen eine Menge Freiheitsgrade. Im Allgemeinen ist es besser, Polynome ( ) oder Splines (stückweise Polynome, die sich reibungslos verbinden) für die Prädiktoren zu verwenden. Binning ist wirklich nur eine gute Idee, wenn Sie eine Diskontinuität in der Reaktion an den Grenzpunkten erwarten würden - sagen wir, die Temperatur, bei der etwas kocht, oder das gesetzliche Alter für das Fahren - und wenn die Reaktion zwischen ihnen flach ist.x+x2+

Der Wert? - Nun, es ist eine schnelle und einfache Möglichkeit, die Krümmung zu berücksichtigen, ohne darüber nachdenken zu müssen. Das Modell ist möglicherweise gut genug für das, wofür Sie es verwenden. Wenn Sie im Vergleich zur Anzahl der Prädiktoren viele Daten haben, funktioniert dies in der Regel einwandfrei. Jeder Prädiktor ist in viele Kategorien unterteilt. In diesem Fall ist der Bereich der Antwort innerhalb jedes Prädiktorbandes klein und die durchschnittliche Antwort wird genau bestimmt.

[Bearbeiten als Antwort auf Kommentare:

Manchmal werden innerhalb eines Feldes Standardgrenzwerte für eine kontinuierliche Variable verwendet: Beispielsweise können in der Medizin Blutdruckmessungen als niedrig, mittel oder hoch eingestuft werden. Es kann viele gute Gründe dafür geben, solche Ausschnitte zu verwenden, wenn Sie ein Modell präsentieren oder anwenden. Insbesondere basieren Entscheidungsregeln häufig auf weniger Informationen als in einem Modell und müssen möglicherweise einfach anzuwenden sein. Daraus folgt jedoch nicht, dass diese Grenzwerte für das Binning der Prädiktoren geeignet sind, wenn Sie das Modell anpassen.

Angenommen, eine Reaktion ändert sich kontinuierlich mit dem Blutdruck. Wenn Sie in Ihrer Studie eine Bluthochdruckgruppe als Prädiktor definieren, ist der Effekt, den Sie schätzen, die durchschnittliche Reaktion auf den jeweiligen Blutdruck der Personen in dieser Gruppe. Ist es nichteine Schätzung der durchschnittlichen Reaktion von Menschen mit Bluthochdruck in der Allgemeinbevölkerung oder von Menschen in der Bluthochdruckgruppe in einer anderen Studie, es sei denn, Sie treffen spezielle Maßnahmen, um dies zu erreichen. Wenn die Verteilung des Blutdrucks in der Allgemeinbevölkerung bekannt ist, wie ich es mir vorstelle, sollten Sie die durchschnittliche Reaktion von Menschen mit hohem Blutdruck in der Allgemeinbevölkerung besser anhand von Vorhersagen aus dem Modell mit dem Blutdruck als a berechnen kontinuierliche Variable. Durch das Binning wird Ihr Modell nur annähernd verallgemeinerbar.

Im Allgemeinen, wenn Sie Fragen zum Verhalten der Reaktion zwischen den Abschneidevorgängen haben, passen Sie das bestmögliche Modell zuerst an und verwenden Sie es dann, um sie zu beantworten.]

[In Bezug auf die Präsentation; Ich denke das ist ein roter Hering:

(1) Einfache Präsentation rechtfertigt keine schlechten Modellierungsentscheidungen. (Und in Fällen, in denen Binning eine gute Modellierungsentscheidung ist, ist keine zusätzliche Begründung erforderlich.) Dies ist sicherlich selbstverständlich. Niemand empfiehlt jemals, eine wichtige Interaktion aus einem Modell herauszunehmen, weil es schwer zu präsentieren ist.

(2) Unabhängig von der Art des Modells, zu dem Sie passen, können Sie die Ergebnisse dennoch in Kategorien darstellen, wenn Sie der Meinung sind, dass dies die Interpretation erleichtert. Obwohl ...

(3) Sie müssen vorsichtig sein, um sicherzustellen, dass es aus den oben genannten Gründen nicht zu Fehlinterpretationen kommt.

(4) Es ist in der Tat nicht schwierig, nichtlineare Antworten darzustellen. Die persönliche Meinung und das Publikum sind sehr unterschiedlich. Aber ich habe noch nie ein Diagramm von angepassten Antwortwerten im Vergleich zu Prädiktorwerten gesehen, das jemanden verwirrt, nur weil es gekrümmt ist. Interaktionen, Logs, zufällige Effekte, Multikollinearität ... - all dies ist viel schwerer zu erklären.]

[Ein weiterer Punkt, den @ Roland angesprochen hat, ist die Genauigkeit der Messung der Prädiktoren; Ich denke, er schlägt vor, dass eine Kategorisierung angebracht sein könnte, wenn sie nicht besonders genau ist. Der gesunde Menschenverstand könnte darauf hindeuten , dass Sie nicht verbessern Angelegenheiten erneut unter Angabe sie noch weniger genau, und der gesunde Menschenverstand wäre richtig: MacCallum et al (2002), „Über die Praxis der Dichotomisierung der quantitativen Variablen“, Psychologische Methodenlehre , 7 , 1, S. 17–19.]

Scortchi
quelle
6
Hervorragende Kommentare zu einem allgegenwärtigen Thema. Hier gilt es, für ein durch und durch quantitatives Denken zu werben. Es wird bereits zu viel Wert darauf gelegt, Schwellen zu überschreiten, z. B. oberhalb einer Level-Katastrophe, unterhalb eines Level-Komforts.
Nick Cox
14
Ich würde jeden dazu auffordern, eine Validierung der von Ärzten verwendeten Grenzwerte vorzulegen.
Frank Harrell
Es ist erwähnenswert, dass dieser Binning-Ansatz in anderen Bereichen einige Vorteile hat - er ist besonders beliebt, wenn er mit großen neuronalen Netzen kombiniert wird, um multimodale Verteilungen wie die Fahrzeugorientierung vorherzusagen. Siehe zum Beispiel arxiv.org/abs/1612.00496 .
N. McA.
11

Ein Teil dieser Antwort, die ich seit dem Fragen gelernt habe, ist, dass nicht Binning und Binning zwei leicht unterschiedliche Fragen beantworten sollen - Was ist die inkrementelle Änderung in den Daten? und was ist der Unterschied zwischen dem niedrigsten und dem höchsten? .

Nicht binning sagt "Dies ist eine Quantifizierung des Trends, der in den Daten zu sehen ist" und binning sagt "Ich habe nicht genug Informationen, um zu sagen, wie sehr sich dies bei jedem Inkrement ändert, aber ich kann sagen, dass das obere vom unteren unterscheidet." .

Tom
quelle
5

Als Kliniker denke ich, dass die Antwort davon abhängt, was Sie tun möchten. Wenn Sie die beste Anpassung oder Anpassung vornehmen möchten, können Sie kontinuierliche und quadratische Variablen verwenden.

Wenn Sie komplizierte Assoziationen für ein nicht statistisch orientiertes Publikum beschreiben und kommunizieren möchten, ist die Verwendung von kategorisierten Variablen besser, wenn Sie akzeptieren, dass Sie in der letzten Dezimalstelle einige leicht voreingenommene Ergebnisse liefern. Ich bevorzuge es, mindestens drei Kategorien zu verwenden, um nichtlineare Assoziationen anzuzeigen. Die Alternative besteht darin, an bestimmten Punkten Diagramme und vorhergesagte Ergebnisse zu erstellen. Dann müssen Sie möglicherweise eine Reihe von Diagrammen für jede kontinuierliche Kovariate erstellen, die interessant sein kann. Wenn Sie Angst haben, zu voreingenommen zu werden, können Sie beide Modelle testen und feststellen, ob der Unterschied wichtig ist oder nicht. Sie müssen praktisch und realistisch sein.

Ich denke, wir können erkennen, dass in vielen klinischen Situationen unsere Berechnungen nicht auf genauen Daten basieren und wenn ich zum Beispiel einem Erwachsenen ein Medikament verschreibe, tue ich das sowieso nicht mit genauen mg pro Kilo (das Gleichnis mit der Wahl zwischen Operation und medizinischer Behandlung) ist nur Unsinn).

Roland
quelle
1
Warum genau ist die Analogie Unsinn? Weil das Kategorisieren von stetigen Variablen niemals wesentlich schlechtere Modelle hervorbringt? Oder weil die Verwendung eines deutlich schlechteren Modells nie praktische Konsequenzen hat?
Scortchi
9
Das ist bei Roland einfach nicht der Fall. Schätzungen, die sich aus Cutoffs ergeben, sind nur deshalb einfach, weil die Leute nicht verstehen, was die Schätzungen veranschlagen. Dies liegt daran, dass sie keine wissenschaftliche Größe schätzen, dh eine Größe, die außerhalb der Stichprobe oder des Experiments eine Bedeutung hat. Das Verhältnis von hohen zu niedrigen Gewinnchancen oder die mittlere Differenz erhöhen sich beispielsweise, wenn Sie dem Datensatz Patienten mit extrem hohen oder extrem niedrigen Werten hinzufügen. Die Verwendung von Cutoffs impliziert auch, dass die Biologie diskontinuierlich ist, was nicht der Fall ist.
Frank Harrell
@Scortchi Ein Wechsel von einer medizinischen zu einer chirurgischen Behandlung, weil es einfacher zu erklären ist (ist es wirklich?), Würde bedeuten, das Alter durch die Größe als erklärende Variable zu ersetzen.
Roland
Ich bin damit einverstanden, dichotomisierte Variablen zu vermeiden. Klinische Medizin ist keine Wissenschaft, bei der die letzte Dezimalstelle wichtig ist. In den Modellen, mit denen ich arbeite, ändern sich die Ergebnisse nur bei der letzten Dezimalstelle, wenn ich Alters- / Alterskategorien als stetige und quadratische Variablen verwende, aber das Verständnis und die Verständlichkeit der Assoziationen enorm steigert.
Roland
4

Wie bereits in früheren Postern erwähnt, ist es im Allgemeinen am besten, eine Dichotomisierung einer stetigen Variablen zu vermeiden. Als Antwort auf Ihre Frage gibt es jedoch Fälle, in denen die Zweiteilung einer kontinuierlichen Variablen Vorteile bringt.

Zum Beispiel, wenn eine gegebene Variable fehlende Werte für einen signifikanten Teil der Population enthält, aber dafür bekannt ist, dass sie eine hohe Vorhersagekraft besitzt und die fehlenden Werte selbst einen Vorhersagewert haben. Betrachten Sie zum Beispiel in einem Kreditbewertungsmodell eine Variable, z. B. das durchschnittliche revolvierende Guthaben (das gewährt wird, ist technisch nicht kontinuierlich, spiegelt in diesem Fall jedoch eine Normalverteilung wider, die nahe genug ist, um als solches behandelt zu werden), die Folgendes enthält fehlende Werte für etwa 20% des Bewerberpools in einem bestimmten Zielmarkt. In diesem Fall stellen die fehlenden Werte für diese Variable eine bestimmte Klasse dar - diejenigen, die keine offene revolvierende Kreditlinie haben; Diese Kunden zeigen ein völlig anderes Verhalten als beispielsweise Kunden mit verfügbaren revolvierenden Kreditlinien, die jedoch regelmäßig kein Guthaben vorweisen können.

Ein weiterer Vorteil der Dichotomisierung: Sie kann verwendet werden, um die Auswirkungen signifikanter Ausreißer, die die Koeffizienten verzerren, zu mildern, stellt jedoch realistische Fälle dar, die behandelt werden müssen. Wenn sich die Ergebnisse der Ausreißer nicht stark von den anderen Werten in den nächsten Perzentilen unterscheiden, die Parameter jedoch so weit verzerren, dass eine marginale Genauigkeit erzielt wird, kann es hilfreich sein, sie mit Werten zu gruppieren, die ähnliche Effekte aufweisen.

Manchmal eignet sich eine Verteilung natürlich für eine Reihe von Klassen. In diesem Fall erhalten Sie durch die Dichotomisierung eine höhere Genauigkeit als durch eine stetige Funktion.

Wie bereits erwähnt, kann die einfache Präsentation je nach Publikum die Genauigkeitsverluste aufwiegen. Um das Kredit-Scoring in der Praxis noch einmal als Beispiel zu nennen, ist der hohe Grad an Regulierung ein praktischer Fall für eine zeitweise Diskretisierung. Während die höhere Genauigkeit dem Kreditgeber helfen könnte, Verluste zu reduzieren, müssen die Praktiker auch berücksichtigen, dass die Modelle von den Aufsichtsbehörden (die möglicherweise Tausende von Seiten Modelldokumentation anfordern) und den Verbrauchern, denen die Kreditvergabe verweigert wird, leicht verstanden werden müssen Erklärung warum.

Es hängt alles vom vorliegenden Problem und den Daten ab, aber es gibt sicherlich Fälle, in denen die Dichotomisierung ihre Vorzüge hat.

cjthompson
quelle
Die Dichotomisierung wird in zwei Klassen aufgeteilt. Meinst du Diskretisierung?
Scortchi
2
In Ihren beiden ersten Beispielen versucht die Diskretisierung, sich in die Gruppe hineinzuwagen, indem sie sich an einen echten Gast klammert. Lass dich nicht täuschen. (1) Wenn Sie modellieren möchten, dass keine offene revolvierende Kreditlinie als bestimmte Klasse vorliegt, verwenden Sie einfach eine Dummy-Variable, um diese Bedingung anzugeben und einen konstanten Wert für das durchschnittliche revolvierende Guthaben zuzuweisen . (2) Wenn Sie bestimmte extreme Prädiktorwerte als "groß" oder "klein" behandeln möchten, kürzen Sie sie. Sie müssen sich nicht mit den restlichen Werten herumschlagen. Der dritte Fall ist unbestritten - Sie können gerne Beispiele hinzufügen.
Scortchi
3

Wenn eine Variable bei einem bestimmten Schwellenwert eine Auswirkung hat, erstellen Sie eine neue Variable, indem Sie sie bündeln. Dies ist eine gute Sache. Ich behalte immer beide Variablen, Original und Binning, und überprüfe, welche Variable ein besserer Prädiktor ist.

Nguyen
quelle
3

Ich bin ein begeisterter Anhänger von Frank Harrells Rat, dass Analysten einer vorzeitigen Diskretisierung kontinuierlicher Daten widerstehen sollten. Und ich habe mehrere Antworten zu CV und SO, die zeigen, wie man Interaktionen zwischen kontinuierlichen Variablen visualisiert, da ich denke, dass dies eine noch wertvollere Forschungslinie ist. Ich habe jedoch auch praktische Erfahrungen in der medizinischen Welt mit den Hindernissen, die der Befolgung dieser Ratschläge entgegenstehen. Es gibt oft attraktive Abteilungen, die sowohl Kliniker als auch Nicht-Kliniker für "Splits" erwarten. Die konventionelle "Obergrenze des Normalen" ist ein solcher "natürlicher" Split-Punkt. Man untersucht im Wesentlichen zuerst die statistische Grundlage einer Beziehung und teilt dann den Inhalt der Befunde in Bezug auf das, was Ihr Publikum erwartet und leicht nachvollziehen kann, mit. Trotz meiner "Allergie" Barplots sind im wissenschaftlichen und medizinischen Diskurs außerordentlich verbreitet. Das Publikum hat wahrscheinlich ein fertiges kognitives Muster, um sie zu verarbeiten, und kann die Ergebnisse in ihre Wissensbasis integrieren.

Darüber hinaus erfordert die grafische Darstellung von modellierten Interaktionen zwischen nichtlinearen Formen von Prädiktorvariablen die Darstellung von Konturdiagrammen oder Drahtgitteranzeigen, bei denen die meisten Zuschauer Schwierigkeiten mit der Verdauung haben werden. Ich habe festgestellt, dass die medizinische und die allgemeine Öffentlichkeit für Präsentationen empfänglicher sind, bei denen die Ergebnisse diskretisiert und segmentiert wurden. Ich gehe also davon aus, dass die Aufteilung ordnungsgemäß erfolgt, nachdem die statistische Analyse abgeschlossen ist. und erfolgt in der Präsentationsphase.

DWin
quelle
1

Häufig haben kontinuierliche Variablen das unangenehme Gefühl, durch den Verlust von Informationen Schaden zu verursachen. Sie können jedoch nicht nur den Informationsverlust begrenzen, sondern auch Informationen gewinnen und weitere Vorteile erzielen.

Wenn Sie Binning verwenden und kategorisierte Variablen erhalten, können Sie möglicherweise Lernalgorithmen anwenden, die nicht auf kontinuierliche Variablen anwendbar sind. Ihr Datensatz passt möglicherweise besser zu einem dieser Algorithmen. Hier ist Ihr erster Vorteil.

Die Idee, den Verlust durch Binning abzuschätzen, basiert auf der Arbeit "PAC-Lernen mit irrelevanten Attributen". Angenommen, unser Konzept ist binär, damit wir die Samples in Positive und Negative aufteilen können. Für jedes Paar einer negativen und einer positiven Stichprobe kann der Unterschied im Konzept durch einen Unterschied in einem der Merkmale erklärt werden (oder es ist auf andere Weise nicht durch die gegebenen Merkmale erklärbar). Die Menge der Merkmalsunterschiede ist die Menge der möglichen Erklärungen zum Konzeptunterschied, daher die Daten, die zur Bestimmung des Konzepts verwendet werden müssen. Wenn wir binning gemacht haben und immer noch die gleichen Erklärungen für die Paare erhalten, haben wir keine benötigten Informationen verloren (in Bezug auf Lernalgorithmen, die durch solche Vergleiche funktionieren). Wenn unsere Kategorisierung sehr streng sein wird, werden wir wahrscheinlich weniger mögliche Erklärungen haben, aber wir werden in der Lage sein, genau zu messen, wie viel und wo wir verlieren. Auf diese Weise können wir die Anzahl der Fächer gegen die Anzahl der Erklärungen austauschen.

Bisher haben wir gesehen, dass wir möglicherweise nicht aufgrund einer Kategorisierung verlieren, aber wenn wir einen solchen Schritt in Betracht ziehen, würden wir gerne davon profitieren. In der Tat können wir von einer Kategorisierung profitieren

Viele Lernalgorithmen, die gebeten werden, eine Stichprobe mit Werten zu klassifizieren, die nicht auf der Zugserie zu sehen sind, betrachten den Wert als "unbekannt". Daher erhalten wir eine Bin von "unknown", die ALLE Werte enthält, die während des Zuges nicht gesehen wurden (oder sogar nicht genug gesehen wurden). Bei solchen Algorithmen wird die Differenz zwischen unbekannten Wertepaaren nicht zur Verbesserung der Klassifizierung verwendet. Vergleichen Sie Ihre Paare nach dem Binning mit den Paaren mit unbekannt und prüfen Sie, ob Ihr Binning nützlich ist und Sie tatsächlich gewonnen haben.

Sie können abschätzen, wie häufig unbekannte Werte vorkommen, indem Sie die Werteverteilung der einzelnen Features überprüfen. Kennzeichen waren Werte, die nur wenige Male auftauchen und einen erheblichen Teil ihrer Verteilung ausmachen. Sie sind gute Kandidaten für das Binning. Beachten Sie, dass Sie in vielen Szenarien viele Funktionen mit unbekannt haben, was die Wahrscheinlichkeit erhöht, dass eine Stichprobe einen unbekannten Wert enthält. Algorithmen, die alle oder viele der Merkmale behandeln, sind in solchen Situationen fehleranfällig.

A. Dhagat und L. Hellerstein, "PAC learning with irrelevant attributes", in 'Proceedings of the IEEE Symp. on Foundation of Computer Science ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

DaL
quelle