Analyse des Fehlers des Bayes-Klassifikators analytisch

9

Wenn zwei Klassen und eine Normalverteilung mit bekannten Parametern haben ( , als Mittel und , sind ihre Kovarianzen), wie können wir den Fehler des Bayes-Klassifikators für sie theoretisch berechnen? $w_1$ $w_2$ $M_1$ $M_2$ $\Sigma_1$ $\Sigma_2$

Angenommen, die Variablen befinden sich im N-dimensionalen Raum.

Hinweis: Eine Kopie dieser Frage ist auch unter https://math.stackexchange.com/q/11891/4051 verfügbar , die noch nicht beantwortet wurde. Wenn eine dieser Fragen beantwortet wird, wird die andere gelöscht.

probability self-study normality-assumption naive-bayes bayes-optimal-classifier Isaac
quelle

1

Ist diese Frage dieselbe wie stats.stackexchange.com/q/4942/919 ?

whuber

@whuber Ihre Antwort legt nahe, dass dies tatsächlich der Fall ist.

Chl

@ Whuber: Ja. Ich kenne diese Frage nicht, die zu welcher passt. Ich warte auf eine Antwort, damit einer den anderen entfernt. Ist es gegen die Regeln?

Isaac

Es könnte einfacher und sicherlich sauberer sein, die ursprüngliche Frage zu bearbeiten. Manchmal wird eine Frage jedoch als neue Frage neu gestartet, wenn die frühere Version zu viele Kommentare sammelt, die durch die Änderungen irrelevant werden. In jedem Fall ist es hilfreich, Querverweise zwischen eng verwandten Fragen zu platzieren, um die Verbindung zu erleichtern.

whuber

25

Es gibt keine geschlossene Form, aber Sie können es numerisch tun.

Betrachten Sie als konkretes Beispiel zwei Gaußsche mit folgenden Parametern

μ_{1} = (\begin{matrix} - 1 \\ - 1 \end{matrix}), μ_{2} = (\begin{matrix} 1 \\ 1 \end{matrix})

$\mu_1=\left(\begin{matrix} -1\\\\ -1 \end{matrix}\right), \mu_2=\left(\begin{matrix} 1\\\\ 1 \end{matrix}\right)$

Σ_{1} = (\begin{matrix} 2 & 1 / 2 \\ 1 / 2 & 2 \end{matrix}), Σ_{2} = (\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix})

$\Sigma_1=\left(\begin{matrix} 2&1/2\\\\ 1/2&2 \end{matrix}\right),\ \Sigma_2=\left(\begin{matrix} 1&0\\\\ 0&1 \end{matrix}\right)$

Die optimale Klassifikatorgrenze von Bayes entspricht dem Punkt, an dem zwei Dichten gleich sind

Da Ihr Klassifikator an jedem Punkt die wahrscheinlichste Klasse auswählt, müssen Sie über die Dichte integrieren, die nicht für jeden Punkt die höchste ist. Für das obige Problem entspricht es den Volumina der folgenden Regionen

Sie können zwei Teile mithilfe eines numerischen Integrationspakets separat integrieren. Für das obige Problem verwende ich 0.253579folgenden Mathematica-Code

dens1[x_, y_] = PDF[MultinormalDistribution[{-1, -1}, {{2, 1/2}, {1/2, 2}}], {x, y}];
dens2[x_, y_] = PDF[MultinormalDistribution[{1, 1}, {{1, 0}, {0, 1}}], {x, y}];
piece1 = NIntegrate[dens2[x, y] Boole[dens1[x, y] > dens2[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece2 = NIntegrate[dens1[x, y] Boole[dens2[x, y] > dens1[x, y]], {x, -Infinity, Infinity}, {y, -Infinity, Infinity}];
piece1 + piece2

Jaroslaw Bulatow
quelle

4

Gute Antwort. Könnten Sie bitte Befehle geben, um Ihre schönen Figuren zu reproduzieren?

Andrej

3

(+1) Diese Grafiken sind wunderschön.

COOLSerdash

1

Es scheint, dass Sie dies auf zwei Arten tun können, je nachdem, welche Modellannahmen Sie gerne treffen.

Generativer Ansatz

Unter der Annahme eines generativen Modells für die Daten müssen Sie auch die vorherigen Wahrscheinlichkeiten jeder Klasse kennen, um eine analytische Aussage über den Klassifizierungsfehler zu erhalten. Suchen Sie nach Diskriminanzanalyse , um die optimale Entscheidungsgrenze in geschlossener Form zu erhalten, und berechnen Sie dann die Bereiche auf den falschen Seiten für jede Klasse, um die Fehlerraten zu erhalten.

Ich nehme an, dies der Ansatz von Ihrem Aufruf bestimmt ist der Bayes - Klassifikator, der nur definiert, wenn alles über den Datenerzeugungsprozess angegeben wird. Da dies selten möglich ist, lohnt es sich immer auch, das zu berücksichtigen

Diskriminierungsansatz

Wenn Sie die vorherigen Klassenwahrscheinlichkeiten nicht angeben möchten oder können, können Sie die Tatsache nutzen, dass die Diskriminanzfunktion unter vielen Umständen (ungefähr exponentielle bedingte Verteilungen von Familienklassen) direkt durch ein logistisches Regressionsmodell modelliert werden kann. Die Fehlerratenberechnung ist dann diejenige für das relevante logistische Regressionsmodell.

Für einen Vergleich der Ansätze und eine Diskussion der Fehlerraten können Jordan 1995 und Jordan 2001 sowie Referenzen von Interesse sein.

Konjugatprior
quelle

0

Hier finden Sie möglicherweise einige Hinweise für Ihre Frage, vielleicht gibt es nicht die vollständige Antwort, aber sicherlich sehr wertvolle Teile davon. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766788/

Mariana weicher
quelle

0

$(1 - TV) / 2$ $TV$

Zum Abschluss ist es nicht schwer, gute Referenzen zu finden, die den Fernseher zwischen multivariaten Gaußschen Verteilungen berechnen.

Dohmatob
quelle

Analyse des Fehlers des Bayes-Klassifikators analytisch

Antworten: