Was ist der Unterschied zwischen einem Problem mit mehreren Klassen und einem Problem mit mehreren Etiketten?
52
Was ist der Unterschied zwischen einem Problem mit mehreren Klassen und einem Problem mit mehreren Etiketten?
Antworten:
Ich vermute, der Unterschied besteht darin, dass sich Klassen bei Problemen mit mehreren Klassen gegenseitig ausschließen, wohingegen bei Problemen mit mehreren Labels jedes Label eine andere Klassifizierungsaufgabe darstellt, die Aufgaben jedoch irgendwie zusammenhängen (es ist also von Vorteil, sie zusammen und nicht getrennt zu lösen) ). Zum Beispiel gibt es im berühmten Datensatz für Leptograspus-Krabben Beispiele für Männchen und Weibchen von zweifarbigen Krabbenarten. Sie könnten dies als ein Problem mit mehreren Klassen mit vier Klassen (männlich-blau, weiblich-blau, männlich-orange, weiblich-orange) oder als ein Problem mit mehreren Bezeichnungen betrachten, bei dem eine Bezeichnung männlich / weiblich und die andere blau wäre /Orange. Grundsätzlich kann ein Muster bei Problemen mit mehreren Etiketten zu mehr als einer Klasse gehören.
quelle
Multiklassifikation bedeutet eine Klassifikationsaufgabe mit mehr als zwei Klassen; B. klassifizieren Sie eine Reihe von Bildern von Früchten, die Orangen, Äpfel oder Birnen sein können. Bei der Klassifizierung in mehrere Klassen wird davon ausgegangen, dass jede Probe einem und nur einem Etikett zugeordnet ist: Eine Frucht kann entweder ein Apfel oder eine Birne sein, aber nicht beide gleichzeitig.
Die Multilabel-Klassifizierung weist jeder Probe eine Reihe von Zieletiketten zu. Dies kann als Vorhersage von Eigenschaften eines Datenpunkts angesehen werden, die sich nicht gegenseitig ausschließen, z. B. Themen, die für ein Dokument relevant sind. Ein Text könnte sich gleichzeitig mit Religion, Politik, Finanzen oder Bildung befassen oder mit keiner dieser Themen.
Entnommen aus http://scikit-learn.org/stable/modules/multiclass.html
quelle
Um die anderen Antworten zu ergänzen, hier einige Zahlen. Eine Zeile = die erwartete Ausgabe für eine Stichprobe.
Multiclass
Eine Spalte = eine Klasse (One-Hot-Codierung)
Multilabel
Eine Spalte = eine Klasse
Siehst du das:
Nebenbei bemerkt, nichts hindert Sie daran, ein Problem mit der Klassifizierung von mehreren Ausgängen und mehreren Klassen zu haben , z.
quelle
Bei einem Problem mit mehreren Klassen werden Instanzen einer endlichen, sich gegenseitig ausschließenden Sammlung von Klassen zugewiesen. Wie im Beispiel von Krabben (von @Dikran): männlich-blau, weiblich-blau, männlich-orange, weiblich-orange. Jedes von diesen ist exklusiv für das andere und zusammengenommen sind sie umfassend.
Eine Form eines Problems mit mehreren Etiketten besteht darin, diese in zwei Etiketten zu unterteilen: Geschlecht und Farbe. wo Geschlecht Mann oder Frau sein kann und Farbe blau oder orange sein kann. Beachten Sie jedoch, dass dies ein Sonderfall des Multi-Label-Problems ist, da jede Instanz jedes Label erhält (dh, jede Krabbe hat sowohl ein Geschlecht als auch eine Farbe).
Probleme mit mehreren Bezeichnungen umfassen auch andere Fälle, in denen jeder Instanz eine variable Anzahl von Bezeichnungen zugewiesen werden kann. Zum Beispiel kann ein Artikel in einer Zeitung oder einem Nachrichtendienst den Kategorien NACHRICHTEN, POLITIK, SPORT, MEDIZIN usw. zugeordnet werden. Eine Geschichte über ein wichtiges Sportereignis würde eine Zuweisung des Labels SPORT erhalten; während andere, die politische Spannungen beinhalten, die durch ein bestimmtes Sportereignis aufgedeckt werden, möglicherweise sowohl die Labels SPORT als auch POLITIK erhalten. Wo ich in den USA bin, werden die Ergebnisse des Superbowl angesichts der gesellschaftlichen Auswirkungen des Ereignisses sowohl als SPORT als auch als NACHRICHTEN bezeichnet.
Beachten Sie, dass diese Form der Etikettierung mit variabler Anzahl von Etiketten in eine Form umgewandelt werden kann, die dem Beispiel mit den Krabben ähnelt. mit der Ausnahme, dass jedes Etikett als LABEL-X oder nicht-LABEL-X behandelt wird. Aber nicht alle Methoden erfordern diese Neufassung.
quelle
Ein weiterer Unterschied besteht darin, dass das Modell aufgrund des Multi-Label-Problems die Korrelation zwischen den verschiedenen Klassen lernen muss. Bei Multi-Class-Problemen sind jedoch verschiedene Klassen voneinander unabhängig.
quelle