Gibt es wissenschaftliche Probleme bei der Verwendung von ML zur Unterstützung menschlicher Anmerkungen?
Ich habe einen unbeschrifteten Datensatz mit 3 Klassen, in dem nur 1 von 500 Elementen zu den 2 interessierenden Klassen gehört.
Die Beschriftungen sind nicht für alle Elemente der unbeschrifteten Daten trivial erkennbar. Da jedoch die meisten Elemente der Mehrheitsklasse mit einem einfachen NN leicht erkennbar sind, können die meisten Elemente der Mehrheitsklasse herausgefiltert und die Zahl auf reduziert werden etwa 1 zu 100 und Erhöhung der Effektivität der Zeit menschlicher Annotatoren um das 50-fache. Der beschriftete Datensatz wird zum Trainieren, Testen und Validieren eines Klassifikators verwendet.
Ich kann jedoch Gründe vorhersehen, warum dies speziell aus akademischer Sicht zu einem Problem führen könnte:
- Wenn die mit Anmerkungen versehenen Daten aufgrund von Verzerrungen in der vor der menschlichen Anmerkung verwendeten ML nicht repräsentativ sind, kann es sein, dass der Klassifizierer Schwierigkeiten hat, sie zu verallgemeinern
- Die Verwendung eines ML-Datenbereinigers, der nicht auf von Menschen bereitgestellten, vertretbaren Regeln basiert, setzt eine Black Box am Anfang des Datenanalyseprozesses
- Nur die Annotation eines kleinen Teils der weit verbreiteten Klasse macht den Datensatz sehr selektiv. Dies würde Kritik am Missbrauch dieser Verzerrung hervorrufen (dh Manipulation für eine gewünschte Hypothese).
Alle Gedanken geschätzt
quelle
Wenn es ein Modell gibt, das Ihre Daten für Sie kennzeichnen kann, warum dann überhaupt eines trainieren?
Ich würde sagen, dass die Verwendung eines anderen Modells zum Beschriften von Daten für ein Modell schlecht ist. Wenn es ein besseres Modell gibt, das einen Datensatz kennzeichnen kann, verwenden Sie stattdessen einfach dieses gute Modell. Zweitens, wenn die Klassen sehr unausgeglichen sind, ist dies viel mehr der Grund, warum Sie genaue Beschriftungen wünschen, damit Ihr Modell das Beste daraus machen kann. Ansonsten verwirren Sie es nur, warum sollten Sie das tun?
Das Beschriften von Daten ist für den Menschen mühsam, aber deshalb versuchen wir, Maschinen so gut zu machen, dass wir irgendwann damit aufhören können.
Wenn Sie einen einfacheren Weg suchen, beschriften Sie zunächst nur die Minderheitsklasse und dann eine gleiche Anzahl der anderen Klassen und trainieren damit, sodass Ihr Datensatz nicht mehr unausgeglichen ist. Angenommen, Sie haben 100 Proben. 10, 40, 50 sind die Anzahl der Proben in jeder Klasse. Sie beschriften also zunächst die 10, die Probe 10 von der 40 und dann die 50 und beschriften sie ebenfalls. Trainieren Sie dann ein Modell mit einem Datensatz Ihrer 30 Proben, die unvoreingenommen sind. Diese Methode hat Vor- und Nachteile, aber ich werde hier aufhören, da dies nicht Ihre ursprüngliche Frage war.
quelle
Es ist wahr, dass normalerweise mehr Daten zu besseren Entscheidungen führen. In Ihrem Fall versuchen Sie, den Etikettierungsprozess zu beschleunigen, und die Art und Weise, wie Sie dies vorschlagen, ist gültig. Da die Frage ist, welche Beispiele man manuell kennzeichnen sollte, ist es sinnvoll, ein System zu verwenden, um "uninteressante" Beispiele mit hoher Sicherheit zu verwerfen. Es geht nicht darum, Beispiele zu ignorieren, sondern einigen von ihnen Vorrang einzuräumen, die nicht trivial sind.
Ein weiteres Thema ist ein Klassifikator, der sich gut auf die tatsächliche Verteilung der Trainingsdaten verallgemeinert. Sie können dies sicherstellen, indem Sie den Klassifizierer in einem Holdout-Set auswerten, das in einer geschichteten Weise aufgeteilt ist. Da es billiger ist, Proben aus einer der Klassen zu erhalten, können Sie den Trainingssatz in einem späteren Schritt (durch Über- / Unter-Probenahme) ausgleichen, nachdem Sie die Daten beschriftet haben.
quelle