Deshalb habe ich ein paar Beiträge darüber gelesen, warum Binning immer vermieden werden sollte. Eine beliebte Referenz für diese Behauptung ist dieser Link .
Das Hauptproblem besteht darin, dass die Binning-Punkte (oder Cutpoints) sowie der daraus resultierende Informationsverlust eher willkürlich sind und dass Splines bevorzugt werden sollten.
Derzeit arbeite ich jedoch mit der Spotify-API, die eine Reihe kontinuierlicher Vertrauensmaßnahmen für einige ihrer Funktionen enthält.
In Bezug auf ein Merkmal, "Instrumentalität", heißt es in den Referenzen:
Prognostiziert, ob ein Track keinen Gesang enthält. "Ooh" - und "aah" -Töne werden in diesem Zusammenhang als instrumental behandelt. Rap- oder Spoken-Word-Tracks sind eindeutig „vokal“. Je näher der Instrumentalitätswert an 1,0 liegt, desto wahrscheinlicher ist es, dass der Track keinen Stimminhalt enthält. Werte über 0,5 sollen Instrumentalspuren darstellen , aber das Vertrauen ist höher, wenn sich der Wert 1,0 nähert.
Angesichts der sehr linksgerichteten Verteilung meiner Daten (etwa 90% der Stichproben liegen kaum über 0) fand ich es sinnvoll, dieses Merkmal in zwei kategoriale Merkmale umzuwandeln: "instrumental" (alle Stichproben mit einem Wert über 0,5) und "non_instrumental" "(für alle Proben mit einem Wert unter 0,5).
Ist das falsch? Und was wäre die Alternative gewesen, wenn sich fast alle meine (kontinuierlichen) Daten um einen einzelnen Wert drehen? Soweit ich über Splines verstehe, würden sie auch nicht mit Klassifizierungsproblemen (was ich tue) funktionieren.
Antworten:
Es ist eine leichte Übertreibung zu sagen, dass das Binning um jeden Preis vermieden werden sollte , aber es ist sicherlich der Fall, dass das Binning Bin-Entscheidungen einführt, die eine gewisse Willkür in die Analyse einbringen. Mit modernen statistischen Methoden ist es im Allgemeinen nicht erforderlich, Binning durchzuführen, da alles, was mit diskretisierten "Binned" -Daten getan werden kann, im Allgemeinen mit den zugrunde liegenden kontinuierlichen Werten durchgeführt werden kann.
Die häufigste Verwendung von "Binning" in der Statistik ist die Erstellung von Histogrammen. Histogramme ähneln der allgemeinen Klasse der Kernel-Dichteschätzer (KDEs), da sie die Aggregation von Schrittfunktionen auf den ausgewählten Bins beinhalten, während die KDE die Aggregation glatterer Kernel beinhaltet. Die in einem Histogramm verwendete Schrittfunktion ist keine glatte Funktion, und es ist im Allgemeinen der Fall, dass bessere Kernfunktionen ausgewählt werden können, die nach der KDE-Methode weniger willkürlich sind, was auch bessere Schätzungen der zugrunde liegenden Dichte der Daten ergibt. Ich sage den Schülern oft, dass ein Histogramm nur die KDE eines "armen Mannes" ist. Persönlich würde ich niemals eine verwenden, da es so einfach ist, eine KDE zu erhalten, ohne die Daten zu bündeln, und dies liefert überlegene Ergebnisse ohne eine willkürliche Binning-Wahl.
Eine andere häufige Verwendung von "Binning" tritt auf, wenn ein Analyst kontinuierliche Daten in Bins diskretisieren möchte, um Analysetechniken zu verwenden, die diskrete Werte verwenden. Dies scheint das zu sein, was in dem von Ihnen zitierten Abschnitt zur Vorhersage von Stimmgeräuschen vorgeschlagen wird. In solchen Fällen kommt es durch das Binning zu einer gewissen Willkür und es kommt auch zu einem Informationsverlust. Es ist wiederum am besten, dies nach Möglichkeit zu vermeiden, indem Sie versuchen, ein Modell direkt auf den zugrunde liegenden kontinuierlichen Werten zu bilden, anstatt ein Modell auf den diskretisierten "gruppierten" Werten zu bilden.
In der Regel ist es für Statistiker wünschenswert, Analysetechniken zu vermeiden, die willkürliche Annahmen einführen, insbesondere in Fällen, in denen alternative Techniken verfügbar sind, um diese Annahmen leicht zu vermeiden. Daher stimme ich dem Gefühl zu, dass Binning im Allgemeinen nicht erforderlich ist. Es sollte sicherlich nicht um jeden Preis vermieden werden , da Kosten wichtig sind, aber es sollte im Allgemeinen vermieden werden, wenn es einfache alternative Techniken gibt, die es ermöglichen, es ohne ernsthafte Unannehmlichkeiten zu vermeiden.
quelle
Ich würde normalerweise stark gegen die Kategorisierung kontinuierlicher Variablen aus den Gründen argumentieren, die von anderen bemerkenswerten Frank Harrell gut ausgedrückt werden. In diesem Fall kann es jedoch hilfreich sein, sich nach dem Prozess zu fragen, der die Ergebnisse generiert hat. Es sieht so aus, als ob die meisten Werte effektiv Null sind, vielleicht mit etwas Rauschen. Einige von ihnen sind mit Lärm wieder ziemlich nahe an der Einheit. Dazwischen liegen nur sehr wenige. In diesem Fall scheint es eher gerechtfertigt zu sein, eine Kategorisierung vorzunehmen, da man argumentieren könnte, dass Modulo das Rauschen eine binäre Variable ist. Wenn man es als kontinuierliche Variable anpasst, haben die Koeffizienten eine Bedeutung in Bezug auf die Änderung der Prädiktorvariablen, aber in diesem Fall ist die Variable über den größten Teil ihres Bereichs sehr dünn besiedelt, so dass dies unattraktiv erscheint.
quelle
Stellen Sie sich vor, Sie haben eine Uhr, die nur die Stunden anzeigt. Mit nur meine ich, dass es nur den Stundenpfeil hat, der einmal pro Stunde einen 1/12 Sprung zu einer anderen Stunde macht, es bewegt sich nicht reibungslos. Eine solche Uhr wäre nicht sehr nützlich, da Sie nicht wissen würden, ob es fünf nach zwei, halb zwei oder zehn vor drei ist. Das ist das Problem mit gruppierten Daten, es verliert Details und führt die "nervösen" Änderungen ein.
quelle
Für einige Anwendungen, anscheinend auch für die, die Sie in Betracht ziehen, kann das Binning unbedingt erforderlich sein. Um ein Kategorisierungsproblem durchzuführen, müssen Sie natürlich irgendwann kategoriale Daten aus Ihrem Modell entfernen. Wenn Ihre Eingaben nicht alle auch kategorisch sind, müssen Sie eine Gruppierung durchführen. Betrachten Sie ein Beispiel:
Was Sie jedoch gehört haben, kann durchaus zutreffen, da durch vorzeitiges Zusammenfassen von Zwischenwerten Informationen zurückgegeben werden, die möglicherweise erhalten geblieben sind. Wenn der endgültige Zweck Ihres Projekts darin besteht, zu bestimmen, ob Ihnen das betreffende Lied "gefällt", was durch zwei Faktoren bestimmt werden kann: "Instrumentalität" und "Rockitude", ist es wahrscheinlich besser, diese als kontinuierliche Variablen beizubehalten, bis Sie müssen "Sympathie" als kategoriale Variable herausziehen.
oder welche Koeffizienten Sie für am besten geeignet halten oder welches andere Modell zu Ihrem Trainingssatz passt.
Wenn Sie stattdessen entscheiden, ob etwas "instrumental" (wahr oder falsch) und "rockt" (wahr oder falsch) ist, haben Sie Ihre 4 Kategorien festgelegt, bevor Sie als Tag klarstellen:
Aber dann müssen Sie nur noch entscheiden, welche dieser 4 Kategorien Sie "mögen". Sie haben bei Ihrer endgültigen Entscheidung auf Flexibilität verzichtet.
Die Entscheidung, ob Sie entsorgen oder nicht, hängt ganz von Ihrem Ziel ab. Viel Glück.
quelle
Im Zusammenhang mit der Frage des OP wäre ich zufrieden, wenn der willkürliche Schwellenwert 0,5 auf eine Vielzahl von Werten zwischen glaubwürdigen Min- und Max-Werten gesetzt würde und um zu sehen, dass die grundlegenden Ergebnisse seiner Analyse weitgehend unabhängig von der Auswahl sind.
quelle