Ich habe oft einen Datensatz analysiert, für den ich keine Klassifizierung vornehmen konnte. Um zu sehen, ob ich einen Klassifikator bekommen kann, habe ich normalerweise die folgenden Schritte ausgeführt:
- Generieren Sie Box-Plots der Beschriftung anhand numerischer Werte.
- Reduzieren Sie die Dimensionalität auf 2 oder 3, um festzustellen, ob Klassen trennbar sind. Versuchen Sie es manchmal auch mit LDA.
- Versuchen Sie mit Nachdruck, SVMs und zufällige Wälder anzupassen, und überprüfen Sie die Wichtigkeit von Funktionen, um festzustellen, ob die Funktionen sinnvoll sind oder nicht.
- Versuchen Sie, das Gleichgewicht zwischen Klassen und Techniken wie Unter- und Überstichproben zu ändern, um zu überprüfen, ob ein Klassenungleichgewicht ein Problem darstellen könnte.
Es gibt viele andere Ansätze, die ich mir vorstellen kann, aber nicht ausprobiert habe. Manchmal weiß ich, dass diese Funktionen nicht gut sind und überhaupt nichts mit dem Label zu tun haben, das wir vorhersagen wollen. Ich benutze dann diese Geschäftsintuition, um die Übung zu beenden, und komme zu dem Schluss, dass wir bessere Funktionen oder völlig andere Bezeichnungen benötigen.
Meine Frage ist, wie ein Data Scientist berichtet, dass die Klassifizierung mit diesen Funktionen nicht möglich ist. Gibt es eine statistische Möglichkeit, dies zu melden oder die Daten zuerst in verschiedene Algorithmen einzupassen, und die Validierungsmetrik ist die beste Option?
Antworten:
Das hängt von Ihren Daten ab. Es gibt so etwas wie einen Fehler auf menschlicher Ebene. Angenommen, Aufgaben wie das Lesen gedruckter Bücher, Menschen haben keine Schwierigkeiten beim Lesen und es kann sein, dass sie keinen Fehler machen, es sei denn, es liegt eine schlechte Druckqualität vor. In Fällen wie dem Lesen handgeschriebener Manuskripte kann es häufig vorkommen, dass nicht alle Wörter verstanden werden, wenn die Schriftart des Verfassers für den Leser ungerade ist. In der ersten Situation ist der Fehler auf menschlicher Ebene zu gering und die Lernalgorithmen können dieselbe Leistung aufweisen. Das zweite Beispiel zeigt jedoch, dass der Fehler auf menschlicher Ebene in einigen Situationen so hoch und auf übliche Weise ist (wenn Sie dieselbe verwenden) Funktionen wie Menschen) Ihr Lernalgorithmus wird so viel Fehlerquote haben.
Beim statistischen Lernen wird
Bayes Error
das Fehlerverhältnis groß genannt , wenn sich die Verteilung der Klassen überschneidet. Ohne die Funktionen zu ändern, ist der Bayes-Fehler der aktuellen Verteilungen die beste Leistung und kann überhaupt nicht reduziert werden.Ich schlage auch vor, dass Sie hier lesen . Probleme mit einer großen Anzahl von Bayes-Fehlern mit festgelegten Features werden im Bereich dieser Features als nicht klassifizierbar angesehen . Als weiteres Beispiel können Sie annehmen, dass Sie Autos mit eingeschalteten Lichtern klassifizieren möchten. Wenn Sie dies morgens versuchen, können selbst viele Fehler auftreten, und wenn Sie dieselben Bilder zum Trainieren des Lernalgorithmus verwenden, kann dies auch der Fall sein.
Außerdem empfehle ich Ihnen, die Verteilung Ihrer Klassen nicht zu ändern. In solchen Fällen wäre das Ergebnis des Klassifikators nahe der Grenze völlig zufällig. Die Verteilung der Daten zum Trainieren Ihres Algorithmus für maschinelles Lernen sollte nicht geändert werden und sollte so sein, wie es im realen Zustand ist.
quelle
Nehmen Sie ein Beispielelement aus einer Klasse und ein Beispielelement aus der anderen Klasse. Können diese beiden Elemente genau den gleichen Merkmalsvektor haben? Wenn dies jemals passieren kann , sind die beiden Klassen unter Verwendung Ihrer aktuellen Merkmalsvektoren nicht vollständig trennbar (da die Klassifizierungsentscheidung vollständig auf dem Merkmalsvektor für ein bestimmtes Element basiert).
Wenn andererseits * jedes "Element in einer Klasse ein entsprechendes Element in der anderen Klasse hat, so dass die beiden Elemente dieselben Merkmalsvektoren haben, sind die beiden Klassen unter Verwendung Ihrer aktuellen Merkmalsvektoren nicht unterscheidbar.
Wenn diese Bedingung nur für einige Ihrer Elemente und nicht für andere gilt, befinden Sie sich irgendwo dazwischen, und Sie können dies als Grundlage verwenden, um zu messen, wie gut Sie hoffen können, dass ein Klassifizierer mit Ihrem aktuellen Funktionsumfang funktioniert.
Alle diese Auswertungen können verwendet werden, um in unterschiedlichem Maße zu argumentieren, dass Sie mehr Funktionen extrahieren müssen.
quelle