Die intuitive Argumentation wurde im Blogpost erklärt:
Wenn unser Ziel die Vorhersage ist, führt dies zu einer eindeutigen Verzerrung. Schlimmer noch, es wird eine permanente Verzerrung in dem Sinne sein, dass wir mit zunehmender Stichprobengröße keine konsistenten Schätzungen haben werden.
Das Problem der (künstlich) ausgeglichenen Daten ist also wahrscheinlich schlimmer als der unausgeglichene Fall.
Ausgeglichene Daten sind gut für die Klassifizierung geeignet, aber Sie verlieren offensichtlich Informationen über Erscheinungshäufigkeiten, die sich auf die Genauigkeitsmetriken selbst und die Produktionsleistung auswirken.
Angenommen, Sie erkennen handgeschriebene Buchstaben aus dem englischen Alphabet (26 Buchstaben). Wenn Sie das Erscheinungsbild jedes Buchstabens übersteuern, wird jeder Buchstabe mit einer Wahrscheinlichkeit von ungefähr 1/26 (richtig oder nicht) klassifiziert, sodass der Klassifizierer die tatsächliche Verteilung der Buchstaben in der ursprünglichen Stichprobe vergisst. Und es ist in Ordnung, wenn der Klassifikator in der Lage ist, jeden Buchstaben mit hoher Genauigkeit zu verallgemeinern und zu erkennen .
Aber wenn Genauigkeit und vor allem Verallgemeinerung nicht "so hoch" sind (ich kann Ihnen keine Definition geben - Sie können es sich nur als "schlimmsten Fall" vorstellen), werden die falsch klassifizierten Punkte höchstwahrscheinlich gleichmäßig auf alle Buchstaben verteilt , so etwas wie:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Im Gegensatz zu ohne Ausgleich (unter der Annahme, dass "A" und "C" viel höhere Wahrscheinlichkeiten für das Auftreten im Text haben)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
So erhalten häufige Fälle weniger Fehlklassifizierungen. Ob es gut ist oder nicht, hängt von Ihrer Aufgabe ab. Für die natürliche Texterkennung könnte man argumentieren, dass Buchstaben mit höheren Häufigkeiten praktikabler sind, da sie die Semantik des Originaltexts bewahren und die Erkennungsaufgabe näher an die Vorhersage rücken (wobei Semantik Tendenzen darstellt ). Wenn Sie jedoch versuchen, so etwas wie einen Screenshot des ECDSA-Schlüssels zu erkennen (mehr Entropie -> weniger Vorhersage), hilft es nicht, die Daten unausgeglichen zu halten. Es kommt also wieder darauf an.
Der wichtigste Unterschied besteht darin, dass die Genauigkeitsschätzung selbst voreingenommen ist (wie Sie im Beispiel für ein ausgeglichenes Alphabet sehen können), sodass Sie nicht wissen, wie sich die seltensten oder häufigsten Punkte auf das Verhalten des Modells auswirken.
PS : Sie können jederzeit die Leistung der unausgeglichenen Klassifizierung verfolgen mit Precision / Recall - Metriken ersten und entscheiden , ob Sie hinzufügen müssen oder nicht balanciert.
p ( xich| θ)p ( xich| θ^)θ^ich- θichEs wird manchmal empfohlen, die Klassen entweder nach der Grundgesamtheit selbst oder nach Parametern neu auszugleichen, die aus einer größeren Stichprobe bekannt sind (daher besserer Schätzer). In der Praxis gibt es jedoch keine Garantie dafür, dass "größere Stichproben" identisch verteilt werden, da die Gefahr besteht, dass bei jedem Schritt voreingenommene Daten abgerufen werden (z. B. englische Briefe aus der Fachliteratur vs. Belletristik vs. die gesamte Bibliothek).
Diese Antwort sollte auch die Anwendbarkeitskriterien für die Bilanzierung klarstellen:
Das Klassenungleichgewichtsproblem wird dadurch verursacht, dass nicht genügend Muster der Minderheitenklasse vorhanden sind, und nicht durch das Verhältnis von positiven und negativen Mustern an sich. Wenn Sie über genügend Daten verfügen, tritt im Allgemeinen das "Klassenungleichgewichtsproblem" nicht auf
Als Fazit ist künstliches Balancieren selten nützlich, wenn der Trainingssatz groß genug ist. Das Fehlen statistischer Daten aus einer größeren, identisch verteilten Stichprobe deutet auch darauf hin, dass kein künstliches Ausgleichen erforderlich ist (insbesondere für die Vorhersage), da sonst die Qualität des Schätzers so gut ist wie "Wahrscheinlichkeit, auf einen Dinosaurier zu treffen":
Wie groß ist die Wahrscheinlichkeit, einen Dinosaurier auf der Straße zu treffen?
1/2 Entweder triffst du einen Dinosaurier oder du triffst keinen Dinosaurier
In Übereinstimmung mit der Bemerkung von @ kjetil-b-halvorsen hat die rasche Übernahme des maschinellen Lernens Forscher über Vorhersage vs. Klassifizierung verwirrt. Wie ich hier ausführlicher beschrieben habe , ist eine Klassifizierung nur in wenigen Fällen angebracht. Wenn das Ergebnis selten (oder zu häufig) ist, sind Wahrscheinlichkeiten alles, weil man in diesem Fall nur vernünftigerweise über Tendenzen sprechen kann , nicht über die Vorhersage einzelner Ereignisse.
In der Statistik haben wir vor einiger Zeit erfahren, dass jede Methode, bei der ein Teil der Daten ausgeschlossen werden muss, höchst verdächtig ist. Das Ziel, die Ergebnisse auszugleichen, ist falsch. Die Vorhersage von Tendenzen (Wahrscheinlichkeiten) erfordert dies nicht. Und sobald Sie eine Wahrscheinlichkeit geschätzt haben, können Sie eine optimale Entscheidung treffen, indem Sie die Funktion Nutzen / Kosten / Verlust auf das vorhergesagte Risiko anwenden.
quelle
Kommt darauf an, was Sie mit der Klassifizierung erreichen wollen?
Angenommen, es handelt sich um Krebs, nicht um Krebs, dann ist die Erkennung von Krebs von entscheidender Bedeutung. Da jedoch Nicht-Krebs den Großteil Ihrer Daten ausmacht, kann der Klassifikator im Wesentlichen alle Fälle an Nicht-Krebs senden und eine sehr hohe Genauigkeit erzielen. Aber das können wir uns nicht leisten, also reduzieren wir im Wesentlichen die Anzahl der Fälle, bei denen es sich nicht um Krebs handelt, und verschieben die Entscheidungsgrenze von der Krebsregion in die Nicht-Krebsregion.
Selbst in Anwendungsfällen, in denen Genauigkeit unser einziges Ziel ist, kann das Auswuchten von entscheidender Bedeutung sein, wenn erwartet wird, dass das Testzeitgleichgewicht von der Zugzeit abweicht.
Angenommen, Sie möchten Mangos und Orangen klassifizieren. Sie haben einen Trainingsdatensatz mit 900 Mangos und 30 Orangen. Sie erwarten jedoch, dass er auf einem Markt mit gleichen Mangos und Orangen bereitgestellt wird. Im Idealfall sollten Sie die Stichproben im erwarteten Stichprobenverhältnis zur Maximierung verwenden Richtigkeit.
quelle
Wenn Ihre Daten ausgeglichen sind, können Sie es vorziehen, die metrische Genauigkeit zu überprüfen. Wenn jedoch in einer solchen Situation Ihre Daten aus dem Gleichgewicht geraten, ist Ihre Genauigkeit für verschiedene Iterationen nicht konsistent. Sie müssen mehr Metriken wie Präzision (PPR), Rückruf (Empfindlichkeit) konzentrieren. Diese beiden Metriken sollten im Vergleich ausgeglichen sein. Außerdem sollten Sie den F1-Score überprüfen, der das harmonische Mittel der Präzision und des Rückrufs darstellt. Dies gilt für alle maschinellen Lernalgorithmen
quelle