Präzision ist definiert als:
p = true positives / (true positives + false positives)
Ist es richtig, dass sich die Genauigkeit 1 nähert true positives
und false positives
sich 0 nähert?
Gleiche Frage zum Rückruf:
r = true positives / (true positives + false negatives)
Ich führe derzeit einen statistischen Test durch, bei dem ich diese Werte berechnen muss. Manchmal ist der Nenner 0, und ich frage mich, welcher Wert für diesen Fall zurückgegeben werden soll.
PS: Entschuldigen Sie das unpassende Tag, das ich verwenden wollte recall
, precision
und limit
, aber ich kann noch keine neuen Tags erstellen.
precision-recall
data-visualization
logarithm
references
r
networks
data-visualization
standard-deviation
probability
binomial
negative-binomial
r
categorical-data
aggregation
plyr
survival
python
regression
r
t-test
bayesian
logistic
data-transformation
confidence-interval
t-test
interpretation
distributions
data-visualization
pca
genetics
r
finance
maximum
probability
standard-deviation
probability
r
information-theory
references
computational-statistics
computing
references
engineering-statistics
t-test
hypothesis-testing
independence
definition
r
censoring
negative-binomial
poisson-distribution
variance
mixed-model
correlation
intraclass-correlation
aggregation
interpretation
effect-size
hypothesis-testing
goodness-of-fit
normality-assumption
small-sample
distributions
regression
normality-assumption
t-test
anova
confidence-interval
z-statistic
finance
hypothesis-testing
mean
model-selection
information-geometry
bayesian
frequentist
terminology
type-i-and-ii-errors
cross-validation
smoothing
splines
data-transformation
normality-assumption
variance-stabilizing
r
spss
stata
python
correlation
logistic
logit
link-function
regression
predictor
pca
factor-analysis
r
bayesian
maximum-likelihood
mcmc
conditional-probability
statistical-significance
chi-squared
proportion
estimation
error
shrinkage
application
steins-phenomenon
Björn Pollex
quelle
quelle
Antworten:
Gegeben eine Verwirrungsmatrix:
Wir wissen das:
Betrachten wir die Fälle, in denen der Nenner Null ist:
quelle
Die Antwort lautet Ja. Die undefinierten Kantenfälle treten auf, wenn True Positives (TP) 0 sind, da dies im Nenner von P & R liegt. In diesem Fall
Dies ist eine Neuformulierung des Kommentars von @ mbq.
quelle
Ich kenne verschiedene Begriffe. Was Sie Präzision nennen, würde ich als positiven Vorhersagewert (PPV) bezeichnen. Und was Sie erinnern nennen, würde ich Sensibilität (Sens) nennen. :
http://en.wikipedia.org/wiki/Receiver_operating_characteristic
Im Falle der Empfindlichkeit (Rückruf) gibt es KEINE positiven Fälle, wenn der Nenner Null ist (wie Amro betont), so dass die Klassifizierung bedeutungslos ist. (Das heißt nicht, dass TP oder FN gleich Null sind, was zu einer Grenzempfindlichkeit von 1 oder 0 führen würde. Diese Punkte befinden sich jeweils in der oberen rechten und unteren linken Ecke der ROC-Kurve - TPR = 1 und TPR = 0. )
Die Grenze von PPV ist jedoch sinnvoll. Es ist möglich, dass die Testgrenze so hoch (oder niedrig) eingestellt wird, dass alle Fälle als negativ vorhergesagt werden. Dies ist der Ursprung der ROC-Kurve. Der Grenzwert des PPV kurz vor dem Erreichen des Ursprungs kann geschätzt werden, indem das letzte Segment der ROC-Kurve kurz vor dem Ursprung betrachtet wird. (Dies ist möglicherweise besser zu modellieren, da ROC-Kurven bekanntermaßen verrauscht sind.)
Wenn es zum Beispiel 100 tatsächliche Positive und 100 tatsächliche Negative gibt und sich der endgültige Segnemt der ROC-Kurve von TPR = 0,08, FPR = 0,02 nähert, dann wäre der Grenz-PPV PPR ~ 0,08 * 100 / (0,08 * 100 + 0,02 * 100 ) = 8/10 = 0,8, dh 80% Wahrscheinlichkeit, wirklich positiv zu sein.
In der Praxis wird jede Stichprobe durch ein Segment in der ROC-Kurve dargestellt - horizontal für ein tatsächliches Negativ und vertikal für ein tatsächliches Positiv. Man könnte den Grenz-PPV durch das allerletzte Segment vor dem Ursprung abschätzen, aber dies würde einen geschätzten Grenz-PPV von 1, 0 oder 0,5 ergeben, abhängig davon, ob die letzte Stichprobe ein wahres positives, ein falsches positives (tatsächliches negatives) oder ein gemachtes Muster war eines gleichen TP und FP. Ein Modellierungsansatz wäre besser, wenn die Daten möglicherweise binormal sind - eine häufige Annahme, z. B .: http://mdm.sagepub.com/content/8/3/197.short
quelle
Das hängt davon ab, was Sie unter "Annäherung an 0" verstehen. Wenn sowohl falsch-positive als auch falsch-negative Werte schneller gegen Null gehen als wahr-positive, dann bejahen Sie beide Fragen. Aber sonst nicht unbedingt.
quelle