Nehmen wir im Zusammenhang mit maschinellem Lernen an, Sie haben ein Problem, bei dem Klassen in der realen Bevölkerung nicht ausgewogen sind - z. B. tritt Klasse A in 80% der Fälle und Klasse B in 20% der Fälle auf.
Ist es in einem solchen Fall im Allgemeinen besser, wenn ein bestimmter ML-Algorithmus auf Daten mit demselben Klassenverhältnis von 80/20 oder Daten mit einem ausgeglichenen Verhältnis (50/50) basiert? a) in Bezug auf Trainingsdaten b) in Bezug auf Testdaten
Eine Folgefrage: Falls die Antwort für (a) oder (b) zufällig mit dem ausgeglichenen 50/50-Verhältnis übereinstimmt, bleibt diese Präferenz im Allgemeinen auch im praktischen Kontext bestehen, in dem sich die Daten befinden, auf die man Zugriff hat des 80/20 Verhältnisses? Mit anderen Worten, würde der Vorteil der Verwendung eines ausgeglichenen Verhältnisses zum Trainieren und / oder Testen die Kosten für die Durchsetzung dieses Verhältnisses überwiegen (z. B. durch Verwerfen von Instanzen aus der Mehrheitsklasse oder durch Generieren neuer synthetischer Stichproben der Minderheitsklasse)?