Welche Beziehung besteht zwischen der linearen Diskriminanzanalyse und der Bayes-Regel? Ich verstehe, dass LDA bei der Klassifizierung verwendet wird, indem versucht wird, das Verhältnis zwischen Gruppenvarianz und Gruppenvarianz zu minimieren, aber ich weiß nicht, wie Bayes-Regeln darin verwendet werden.
12
Antworten:
Die Einteilung in LDA erfolgt wie folgt (Bayes-Regelansatz). [Über die Extraktion von Diskriminanten könnte man hier schauen .]
Der gesucht für Wahrscheinlichkeit nach Bayes - Theorem, dass wir mit der Klasse zu tun haben , während zur Zeit Punkt beobachtet x ist P ( k | x ) = P ( k ) * P ( x | k ) / P ( x ) , wok x P(k|x)=P(k)∗P(x|k)/P(x)
- unbedingte (Hintergrund-) Wahrscheinlichkeit der Klasse k ; P ( x ) - unbedingte (Hintergrund-) Wahrscheinlichkeit von Punkt x ; P ( x | k ) - Wahrscheinlichkeit des Vorhandenseins von Punkt x in Klasse k , wenn die behandelte Klasse k ist .P(k) k P(x) x P(x|k) x k k
"Beobachten des aktuellen Punkts " ist die Grundbedingung, P ( x ) = 1 , und daher kann der Nenner weggelassen werden. Somit ist P ( k | x ) = P ( k ) ≤ P ( x | k ) .x P(x)=1 P(k|x)=P(k)∗P(x|k)
ist eine vor (Präanalytische) Wahrscheinlichkeitdass die native Klasse für x IS k ; P ( k ) wird vom Benutzer angegeben. Normalerweise erhalten alle Klassen standardmäßig denWert P ( k ) = 1 / number_of_classes. Um zu berechnen P ( k | x ) , dh posterior (post-analytisch) Wahrscheinlichkeitdass die native Klasse für x heißt k , sollte man wissen , P ( x | k ) .P(k) x k P(k) P(k) P(k|x) x k P(x|k)
- Wahrscheinlichkeitan sich- kann nicht gefunden werden, denn Diskriminanten, das Hauptproblem der LDA, sind kontinuierliche, nicht diskrete Variablen. Die Größe, diein diesem Fall P ( x | k ) ausdrücktund proportional dazu ist, ist dieWahrscheinlichkeitsdichte(PDF-Funktion). Hierfür müssen wir PDF für Punkt x in Klasse k , P D F ( x | k ) , in p- dimensionaler Normalverteilung berechnen, die durch Werte von p gebildet wirdP(x|k) P(x|k) x k PDF(x|k) p p Diskriminanten. [Siehe Wikipedia Multivariate Normalverteilung]
wo - Quadrat Mahalanobis - Abstand [Siehe Wikipedia Mahalanobis - Abstand] im Raum der Diskriminanten von Punkt x zu einem Klassenschwerpunkt; S - Kovarianzmatrix zwischen den in dieser Klasse beobachteten Diskriminanten .d x S
Berechnen Sie auf diese Weise für jede der Klassen. P ( k ) * P D F ( x | k ) für den Punkt x und Klasse k ausdrücken die gesuchten für P ( k ) * P ( x | k ) für uns. Aber mit der oben Reserve , dass PDF ist nicht per se Wahrscheinlichkeit, nur proportional zu ihr, sollten wir normalisieren P ( k ) * P DPDF(x|k) P(k)∗PDF(x|k) x k P(k)∗P(x|k) , dividiert durch die Summe von P ( k ) ∗ P D F ( x | k ) s über alle Klassen. Wenn es zum Beispiel insgesamt 3 Klassen gibt, k , l , m , dannP(k)∗PDF(x|k) P(k)∗PDF(x|k) k l m
Punkt wird von der LDA der Klasse zugeordnet, für die P ( k | x ) am höchsten ist.x P(k|x)
Hinweis. Dies war der allgemeine Ansatz. Viele LDA Programme standardmäßig Verwendung gepoolt innerhalb Klasse Matrix für alle Klassen in der Formel für PDF oben. In diesem Fall vereinfacht sich die Formel erheblich, da ein solches S in LDA eine Identitätsmatrix ist (siehe die untere Fußnote hier ) und daher | S | = 1 und d Umdrehungen in quadrierten euklidischen Abstand ( Zur Erinnerung: die gepoolte within-Klasse S , sprechen wir über Kovarianzen zwischen den Diskriminanten ist, - nicht zwischen den Eingangsvariablen, die in der Regel als Matrix bezeichnet wird , S w ).S S |S|=1 d S Sw
Zusatz . Bevor der obige Bayes- Regelansatz zur Klassifizierung in LDA eingeführt wurde, schlug Fisher, LDA-Pionier, die Berechnung der jetzt so genannten linearen Klassifizierungsfunktionen von Fisher vor , um Punkte in LDA zu klassifizieren. Für Punkt die Funktionsbewertung der Zugehörigkeit zur Klasse k die Linearkombination b k v 1 V 1 x + b k v 2 V 2 x + . . . + C o n s t k , wobei V 1 ,x k bkv1V1x+bkv2V2x+...+Constk sind die Prädiktorvariablen in der Analyse.V1,V2,...Vp
Koeffizienten , g die Anzahl der Klassen ist , und s v w das Element innerhalb der Klasse gepoolt wobei Streumatrix von p V -Variablen.bkv=(n−g)∑pwsvwV¯kw g svw p V
.Constk=log(P(k))−(∑pvbkvV¯kv)/2
Punkt wird der Klasse zugewiesen, deren Punktzahl am höchsten ist. Die Klassifizierungsergebnisse dieser Fisher-Methode (die die Extraktion von Diskriminanten umgeht, die an der komplexen Zerlegung beteiligt sind) sind nur dann mit denen der Bayes-Methode identisch, wenn die gepoolte Kovarianzmatrix innerhalb der Klasse mit der Bayes-Methode auf Basis von Diskriminanten verwendet wird (siehe "Anmerkung"). oben) und alle Diskriminanten werden bei der Klassifizierung verwendet. Die Bayes-Methode ist allgemeiner, da sie auch die Verwendung separater Matrizen innerhalb der Klasse ermöglicht .x
quelle
Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vectorx and class conditional densities f1(x) and f2(x) the Bayes rule will classify x as belonging to group 1 if f1(x)≥f2(x) and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if f1 and f2 are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).
quelle