Lineare Diskriminanzanalyse und Bayes-Regel: Klassifikation

12

Welche Beziehung besteht zwischen der linearen Diskriminanzanalyse und der Bayes-Regel? Ich verstehe, dass LDA bei der Klassifizierung verwendet wird, indem versucht wird, das Verhältnis zwischen Gruppenvarianz und Gruppenvarianz zu minimieren, aber ich weiß nicht, wie Bayes-Regeln darin verwendet werden.

zca0
quelle
Diskriminanzfunktionen werden extrahiert, um das Verhältnis zwischen Gruppenvariation und Gruppenvariation zu maximieren. Es hat nichts mit der Klassifizierung zu tun, die die zweite und eigenständige Stufe der LDA darstellt.
TTNPHNS

Antworten:

16

Die Einteilung in LDA erfolgt wie folgt (Bayes-Regelansatz). [Über die Extraktion von Diskriminanten könnte man hier schauen .]

Der gesucht für Wahrscheinlichkeit nach Bayes - Theorem, dass wir mit der Klasse zu tun haben , während zur Zeit Punkt beobachtet x ist P ( k | x ) = P ( k ) * P ( x | k ) / P ( x ) , wokxP(k|x)=P(k)P(x|k)/P(x)

- unbedingte (Hintergrund-) Wahrscheinlichkeit der Klasse k ; P ( x ) - unbedingte (Hintergrund-) Wahrscheinlichkeit von Punkt x ; P ( x | k ) - Wahrscheinlichkeit des Vorhandenseins von Punkt x in Klasse k , wenn die behandelte Klasse k ist .P(k)kP(x)xP(x|k)xkk

"Beobachten des aktuellen Punkts " ist die Grundbedingung, P ( x ) = 1 , und daher kann der Nenner weggelassen werden. Somit ist P ( k | x ) = P ( k ) P ( x | k ) .xP(x)=1P(k|x)=P(k)P(x|k)

ist eine vor (Präanalytische) Wahrscheinlichkeitdass die native Klasse für x IS k ; P ( k ) wird vom Benutzer angegeben. Normalerweise erhalten alle Klassen standardmäßig denWert P ( k ) = 1 / number_of_classes. Um zu berechnen P ( k | x ) , dh posterior (post-analytisch) Wahrscheinlichkeitdass die native Klasse für x heißt k , sollte man wissen , P ( x | k ) .P(k)xkP(k)P(k)P(k|x)xkP(x|k)

- Wahrscheinlichkeitan sich- kann nicht gefunden werden, denn Diskriminanten, das Hauptproblem der LDA, sind kontinuierliche, nicht diskrete Variablen. Die Größe, diein diesem Fall P ( x | k ) ausdrücktund proportional dazu ist, ist dieWahrscheinlichkeitsdichte(PDF-Funktion). Hierfür müssen wir PDF für Punkt x in Klasse k , P D F ( x | k ) , in p- dimensionaler Normalverteilung berechnen, die durch Werte von p gebildet wirdP(x|k)P(x|k)xkPDF(x|k)ppDiskriminanten. [Siehe Wikipedia Multivariate Normalverteilung]

PDF(x|k)=ed/2(2π)p/2|S|)

wo - Quadrat Mahalanobis - Abstand [Siehe Wikipedia Mahalanobis - Abstand] im Raum der Diskriminanten von Punkt x zu einem Klassenschwerpunkt; S - Kovarianzmatrix zwischen den in dieser Klasse beobachteten Diskriminanten .dxS

Berechnen Sie auf diese Weise für jede der Klassen. P ( k ) * P D F ( x | k ) für den Punkt x und Klasse k ausdrücken die gesuchten für P ( k ) * P ( x | k ) für uns. Aber mit der oben Reserve , dass PDF ist nicht per se Wahrscheinlichkeit, nur proportional zu ihr, sollten wir normalisieren P ( k ) * P DPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k) , dividiert durch die Summe von P ( k ) P D F ( x | k ) s über alle Klassen. Wenn es zum Beispiel insgesamt 3 Klassen gibt, k , l , m , dannP(k)PDF(x|k)P(k)PDF(x|k)klm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

Punkt wird von der LDA der Klasse zugeordnet, für die P ( k | x ) am höchsten ist.xP(k|x)

Hinweis. Dies war der allgemeine Ansatz. Viele LDA Programme standardmäßig Verwendung gepoolt innerhalb Klasse Matrix für alle Klassen in der Formel für PDF oben. In diesem Fall vereinfacht sich die Formel erheblich, da ein solches S in LDA eine Identitätsmatrix ist (siehe die untere Fußnote hier ) und daher | S | = 1 und d Umdrehungen in quadrierten euklidischen Abstand ( Zur Erinnerung: die gepoolte within-Klasse S , sprechen wir über Kovarianzen zwischen den Diskriminanten ist, - nicht zwischen den Eingangsvariablen, die in der Regel als Matrix bezeichnet wird , S w ).SS|S|=1dSSw

Zusatz . Bevor der obige Bayes- Regelansatz zur Klassifizierung in LDA eingeführt wurde, schlug Fisher, LDA-Pionier, die Berechnung der jetzt so genannten linearen Klassifizierungsfunktionen von Fisher vor , um Punkte in LDA zu klassifizieren. Für Punkt die Funktionsbewertung der Zugehörigkeit zur Klasse k die Linearkombination b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , wobei V 1 ,xkbkv1V1x+bkv2V2x+...+Constk sind die Prädiktorvariablen in der Analyse.V1,V2,...Vp

Koeffizienten , g die Anzahl der Klassen ist , und s v w das Element innerhalb der Klasse gepoolt wobei Streumatrix von p V -Variablen.bkv=(ng)wpsvwV¯kwgsvwp V

.Constk=log(P(k))(vpbkvV¯kv)/2

Punkt wird der Klasse zugewiesen, deren Punktzahl am höchsten ist. Die Klassifizierungsergebnisse dieser Fisher-Methode (die die Extraktion von Diskriminanten umgeht, die an der komplexen Zerlegung beteiligt sind) sind nur dann mit denen der Bayes-Methode identisch, wenn die gepoolte Kovarianzmatrix innerhalb der Klasse mit der Bayes-Methode auf Basis von Diskriminanten verwendet wird (siehe "Anmerkung"). oben) und alle Diskriminanten werden bei der Klassifizierung verwendet. Die Bayes-Methode ist allgemeiner, da sie auch die Verwendung separater Matrizen innerhalb der Klasse ermöglicht .x

ttnphns
quelle
This is Bayesian approach right? What is the Fisher's approach for this?
zca0
1
Added to the answer upon your request
ttnphns
+1 zur Unterscheidung zwischen dem Bayes- und dem Fisher-Ansatz der LDA. Ich bin ein Neuling in LDA, und die Bücher, die ich lese, lehren mich LDA in Bayes 'Ansatz, der in Klasse K mit dem höchsten p ( K | X ) klassifiziert , sodass ich das gesamte p ( K |) berechnen muss X ) für jede Klasse K , richtig? Nach dem Ansatz von Fisher muss ich nur die Diskriminanten und ihre entsprechenden Koefs herausfinden und nicht für jede Klasse den hinteren Teil berechnen, oder? XKp(K|X)p(K|X)K
Avocado
And I think the Bayes' approach is more understandable, and why do we need to use the Fisher's approach?
avocado
We don't need. Just for historical matter.
ttnphns
1

Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector x and class conditional densities f1(x) and f2(x) the Bayes rule will classify x as belonging to group 1 if f1(x)f2(x) and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if f1 and f2 are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).

Michael R. Chernick
quelle