Berechnungsschwelle für Mindestrisikoklassifikator?

11

Angenommen, zwei Klassen C1 und haben ein Attribut und die Verteilung und . wenn wir gleich vor für folgende Kostenmatrix haben:C2xN(0,0.5)N(1,0.5)P(C1)=P(C2)=0.5

L=[00.510]

Warum ist der Schwellenwert für den Klassifikator für das minimale Risiko (Kosten)?x0<0,5

Dies ist mein Notizbeispiel, das ich falsch verstehe (dh wie diese Schwelle erreicht wird?).

Edit 1: Ich denke, für Schwellenwerte des Wahrscheinlichkeitsverhältnisses können wir P (C1) / P (C2) verwenden.

Bearbeiten 2: Ich füge aus Duda Book on Pattern einen Text über den Schwellenwert hinzu. Geben Sie hier die Bildbeschreibung ein

user153695
quelle

Antworten:

4

Für eine Kostenmatrix ist

L=[00.510]c1c2predictionc1c2truth

Der Verlust der Vorhersage der Klasse wenn die Wahrheit Klasse c 2 ist, beträgt L 12 = 0,5 , und die Kosten der Vorhersage der Klasse c 2, wenn die Wahrheit Klasse c 1 ist, betragen L 21 = 1 . Es gibt keine Kosten für korrekte Vorhersagen, L 11 = L 22 = 0 . Das bedingte Risiko R für die Vorhersage einer der Klassen k ist dannc1c2L12=0.5c2c1L21=1L11=L22=0Rk

Eine Referenz finden Sie in diesenHinweisenauf Seite 15.

R(c1|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)R(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)

Um das Risiko / den Verlust zu minimieren, prognostizieren Sie wenn die Kosten aus dem Fehler (dies ist der Verlust der falschen Vorhersage multipliziert mit der hinteren Wahrscheinlichkeit, dass die Vorhersage falsch ist L 12 Pr ( c 2 | x ) ) geringer sind als die Kosten für die falsche Vorhersage der Alternative,c1L12Pr(c2|x)

wobei die zweite Zeile die Bayes'sche RegelPr(c2|x)Pr(x|c2)Pr(c2) verwendet. Bei gleichen vorherigen WahrscheinlichkeitenPr(c1)=Pr(c2)=0,5 erhaltenSie 1

L12Pr(c2|x)<L21Pr(c1|x)L12Pr(x|c2)Pr(c2)<L21Pr(x|c1)Pr(c1)L12Pr(c2)L21Pr(c1)<Pr(x|c1)Pr(x|c2)
Pr(c2|x)Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.5
12<Pr(x|c1)Pr(x|c2)

Sie klassifizieren also eine Beobachtung als wenn das Wahrscheinlichkeitsverhältnis diesen Schwellenwert überschreitet. Jetzt ist mir nicht klar, ob Sie den "besten Schwellenwert" in Bezug auf die Wahrscheinlichkeitsverhältnisse oder in Bezug auf das Attribut x wissen wollten . Die Antwort ändert sich je nach Kostenfunktion. Verwendung des Gaußschen in der Ungleichung mit σ 1 = σ 2 = σ und μ 1 = 0 , μ 2 = 1 , 1c1xσ1=σ2=σμ1=0μ2=1

12<12πσexp[12σ2(xμ1)2]12πσexp[12σ2(xμ2)2]log(12)<log(12πσ)12σ2(x0)2[log(12πσ)12σ2(x1)2]log(12)<x22σ2+x22σ22x2σ2+12σ2xσ2<12σ2log(12)x<12log(12)σ2
so a prediction threshold in terms of x as you search for can only be achieved if the losses from false predictions are the same, i.e. L12=L21 because only then can you have log(L12L21)=log(1)=0 and you get the x0<12.
Andy
quelle
Nice Answer, but confused me! if you want to choose x0=0.5 or x0<0.5, which one is correct?
user153695
So right on the decision boundary x0=0.5 you can't tell exactly if an observation should be in class one or two (because it's exactly on the boundary). So choosing whether observation i should be in class 1 if x00.5 or x0<0.5 is up to you. With large enough samples this should happen for very few observations so at the margin it will matter litter for your result.
Andy
all of my problem that set bounty to it thtat my prof. calculated x0<0.5 and not accept x0=0.5 please see my edit in question, I thin threshold should be x0<0.5 .
user153695
maybe 0.5-ln :)
user153695
1
@whuber thanks, I completely missed that so I started from a completely wrong end.
Andy