In einer einfachen Klassifikation haben wir zwei Klassen: Klasse-0 und Klasse-1. In einigen Daten habe ich nur Werte für Klasse 1, also keine für Klasse 0. Jetzt denke ich darüber nach, ein Modell zu erstellen, um die Daten für Klasse 1 zu modellieren. Wenn also neue Daten kommen, wird dieses Modell auf die neuen Daten angewendet und findet eine Wahrscheinlichkeit, die angibt, wie wahrscheinlich es ist, dass neue Daten zu diesem Modell passen. Wenn ich dann mit einem Schwellenwert vergleiche, kann ich unangemessene Daten filtern.
Meine Fragen sind:
- Ist dies ein guter Weg, um mit solchen Problemen zu arbeiten?
- Kann für diesen Fall ein RandomForest-Klassifikator verwendet werden? Muss ich künstliche Daten für Klasse 0 hinzufügen, die der Klassifizierer hoffentlich als Rauschen betrachtet?
- Irgendeine andere Idee könnte bei diesem Problem helfen?
quelle
Lassen Sie mich noch einige Möglichkeiten hinzufügen:
Die allgemeine Idee ist, dass Sie durch Festlegen eines Schwellenwerts für den Abstand von der Klasse entscheiden können, ob eine Stichprobe zu dieser Klasse gehört oder nicht, und unabhängig davon, ob es andere Klassen gibt oder nicht.
SIMCA ist in der chemometrischen Literatur weit verbreitet (obwohl es selten wirklich in einer Klasse eingerichtet ist).
Richard G. Brereton: Chemometrie für die Mustererkennung (Wiley, 2009) enthält ein ganzes Kapitel über die Klassifizierung in einer Klasse.
quelle