Ich lerne einen maschinellen Lernkurs und die Vorlesungsfolien enthalten Informationen, die dem empfohlenen Buch widersprechen.
Das Problem ist folgendes: Es gibt drei Klassifikatoren:
- Klassifikator A, der eine bessere Leistung im unteren Bereich der Schwellenwerte bietet,
- Klassifikator B, der eine bessere Leistung im höheren Bereich der Schwellenwerte bietet,
- Klassifikator C was wir bekommen, wenn wir eine p-Münze werfen und aus den beiden Klassifikatoren auswählen.
Wie wird sich der Klassifikator C auf einer ROC-Kurve verhalten?
In den Vorlesungsfolien heißt es, dass wir durch einfaches Umwerfen dieser Münze die magische " konvexe Hülle " der ROC-Kurve der Klassifikatoren A und B erhalten.
Ich verstehe diesen Punkt nicht. Wie können wir Informationen erhalten, indem wir einfach eine Münze werfen?
Die Vorlesungsfolie
Was das Buch sagt
In dem empfohlenen Buch ( Data Mining ... von Ian H. Witten, Eibe Frank und Mark A. Hall ) heißt es dagegen:
Um dies zu sehen, wählen Sie eine bestimmte Wahrscheinlichkeitsgrenze für Methode A, die wahre und falsche positive Raten von tA bzw. fA ergibt, und eine andere Grenze für Methode B, die tB und fB ergibt. Wenn Sie diese beiden Schemata zufällig mit den Wahrscheinlichkeiten p und q verwenden, wobei p + q = 1 ist, erhalten Sie wahre und falsch positive Raten von p. tA + q. tB und p. fA + q. fB. Dies stellt einen Punkt dar, der auf der geraden Linie liegt, die die Punkte (tA, fA) und (tB, fB) verbindet. Indem Sie p und q variieren, können Sie die gesamte Linie zwischen diesen beiden Punkten nachzeichnen.
Um Informationen zu erhalten und den konvexen Rumpf zu erreichen, müssen wir meines Erachtens etwas Fortgeschritteneres tun, als nur eine P-Münze zu werfen.
AFAIK, der richtige Weg (wie im Buch vorgeschlagen) ist der folgende:
- wir sollten eine optimale Schwelle Oa für den Klassifikator A finden
- wir sollten eine optimale Schwelle Ob für den Klassifikator B finden
definiere C wie folgt:
- Wenn t <Oa, verwenden Sie den Klassifikator A mit t
- Wenn t> Ob, verwenden Sie den Klassifikator B mit t
- Wenn Oa <t <Ob, wählen Sie zwischen Klassifikator A mit Oa und B mit Ob anhand der Wahrscheinlichkeit als Linearkombination, in der wir uns zwischen Oa und Ob befinden.
Ist das richtig? Wenn ja, gibt es ein paar wesentliche Unterschiede zu den Vorschlägen der Folien.
- Es ist kein einfaches Münzwerfen, sondern ein fortschrittlicherer Algorithmus, der manuell definierte Punkte und Picks basierend auf der Region benötigt, in die wir fallen.
- Es werden niemals die Klassifizierer A und B mit Schwellenwerten zwischen Oa und Ob verwendet.
Können Sie das Problem mir erklären , und was ist der richtige Weg , es zu verstehen , wenn mein Verständnis nicht richtig war?
Was würde passieren, wenn wir einfach eine P-Münze werfen würden, wie es die Folien suggerieren würden? Ich würde denken, dass wir eine ROC-Kurve erhalten würden, die zwischen A und B liegt, aber niemals "besser" als die bessere an einem bestimmten Punkt.
Soweit ich sehen kann, verstehe ich wirklich nicht, wie die Folien richtig sein könnten. Die Wahrscheinlichkeitsrechnung auf der linken Seite macht für mich keinen Sinn.
Update: Den Artikel des ursprünglichen Autors gefunden, der die Methode der konvexen Hülle erfunden hat: http://www.bmva.org/bmvc/1998/pdf/p082.pdf
Antworten:
(Bearbeitet)
Die Vorlesungsfolien sind richtig.
Methode A hat einen "optimalen Punkt", der wahre und falsch positive Raten von (TPA, FPA in der Grafik) ergibt. Dieser Punkt würde einer Schwelle entsprechen, oder allgemeiner [*] einer optimalen Entscheidungsgrenze für A. Gleiches gilt für B. (Aber die Schwellen und die Grenzen hängen nicht zusammen).
Es hat sich gezeigt, dass Klassifikator A unter der Präferenz "Minimieren von False Positives" (konservative Strategie) und Klassifikator B eine gute Leistung erbringt, wenn wir "True Positives" (eifrige Strategie) maximieren möchten.
Die Antwort auf Ihre erste Frage lautet im Grunde ja, mit der Ausnahme, dass die Wahrscheinlichkeit der Münze (in gewissem Sinne) willkürlich ist. Das letzte Clasiffier wäre:(Korrigiert: Eigentlich sind die Vorlesungen völlig richtig, wir können auf jeden Fall nur die Münze werfen. Siehe Diagramme)
[*] Du solltest hier allgemein sein: Wenn du in Bezug auf eine einzige skalare Schwelle denkst, macht all dies wenig Sinn; Ein eindimensionales Feature mit einem schwellenwertbasierten Klassifikator bietet nicht genügend Freiheitsgrade, um verschiedene Klassifikatoren wie A und B zu haben, die sich entlang verschiedener Kurven verhalten, wenn die freien Parameter (Entscheidungsgrenze = Schwelle) variieren. Mit anderen Worten: A und B heißen "Methoden" oder "Systeme", nicht "Klassifikatoren"; weil A eine ganze Familie von Klassifikatoren ist, parametrisiert durch einen Parameter (Skalar), der eine Entscheidungsgrenze bestimmt, nicht nur einen Skalar]
Ich habe einige Diagramme hinzugefügt, um es klarer zu machen:
In diesem Szenario kann man dann sagen, dass die gefüllte orange Linie der "optimale A-Klassifikator" (innerhalb seiner Familie) ist, und dasselbe für B. Man kann jedoch nicht sagen, ob die orange Linie besser ist als die blaue Linie: Man führt aus Besser, wenn wir den falschen Positiven hohe Kosten zuweisen, die anderen, wenn falsche Negative viel teurer sind.
Es kann nun vorkommen, dass diese beiden Klassifikatoren für unsere Anforderungen zu extrem sind. Wir möchten, dass beide Fehlertypen ähnliche Gewichte haben. Wir würden es vorziehen, anstatt den Klassifikator A (orangefarbener Punkt) oder B (blauer Punkt) zu verwenden, um eine Leistung zu erzielen, die zwischen ihnen liegt. Wie der Kurs sagt, kann man dieses Ergebnis erreichen, indem man einfach eine Münze wirft und zufällig einen der Klassifikatoren auswählt.
Wir erhalten keine Informationen. Unser neuer randomisierter Klassifikator ist nicht einfach "besser" als A oder B, seine Leistung ist eine Art Durchschnitt von A und B, in Bezug auf die Kosten, die jeder Art von Fehler zugeordnet sind. Das kann für uns von Vorteil sein oder auch nicht, je nachdem, was unsere Kosten sind.
quelle
Ich stimme Ihrer Argumentation zu. Wenn Sie den Klassifikator durch Münzwurf verwenden, um einen zu wählen, wenn Sie sich zwischen den Punkten A und B befinden, liegt Ihr Punkt auf der Kurve immer unter dem besseren Klassifikator und über dem ärmeren und möglicherweise nicht über beiden! Mit dem Diagramm muss etwas nicht in Ordnung sein. An dem Punkt, an dem sich die 2 ROC-Kurven kreuzen, hat der Zufallsauswahlalgorithmus die gleiche Leistung wie die beiden Algorithmen. Es wird nicht so darüber sein, wie es im Diagramm dargestellt ist.
quelle