Lineare Diskriminanzanalyse für

9

Ich studiere 'Einführung in das statistische Lernen' von James, Witten, Hastie, Tibshirani.

Auf Seite 139 ihres Buches begannen sie mit der Einführung des Bayes-Theorems . ist keine mathematische Konstante, sondern bezeichnet die vorherige Wahrscheinlichkeit. In dieser Gleichung ist nichts seltsam. πpk(X)=P(Y=k|X=x)=πkfk(x)l=1kπlfl(x)π

Das Buch behauptet, dass es eine Schätzung für erhalten möchte, die es in die oben angegebene Gleichung kann. Um zu schätzen , wird davon , dass dies normal ist. In der eindimensionalen Einstellung ist , wobei und der Mittelwert und die Varianz für die te Klasse sind. Es wird angenommen, dass . (Ich begann von der letzten Aussage verwirrt zu werden.)f k ( x ) f k ( x ) = 1fk(x)fk(x)μkσ 2 k kσ 2 1 =σ 2 2 ==σ 2 K.fk(x)=12πσexp(12σ2(xμk)2)μkσk2kσ12=σ22==σK2

Anstecken in , haben Sie diese ziemlich chaotisch Gleichung (1):p xfkpx

px(k)=πk12πσexp(12σ2(xμk)2)l=1Kπl12πσexp(12σ2(xμl)2).

Auch hier keine Überraschungen, da es sich nur um eine Substitution handelt.


Der Bayes-Klassifikator beinhaltet das Zuweisen einer Beobachtung zu der Klasse, für die Gleichung (1) die größte ist. Wenn man das Protokoll von Gleichung (1) nimmt und die Terme neu anordnet, ist es nicht schwer zu zeigen, dass dies der Zuordnung der Beobachtung zu der Klasse entspricht, für die das Folgende die größte ist:

δk(x)=xμkσ2μk22σ2+log(πk)

Frage: Ich verstehe nicht, woher das kommt und was es bedeutet. Ich habe versucht, das Gleichungsprotokoll zu erstellen, und es wird nicht so. Nehmen wir die Ableitung hier irgendwo hin, da dies die größte Beobachtung ist?

cgo
quelle

Antworten:

5

Sie können Gleichung (1) bis zu einer Proportionalitätskonstante ausdrücken.

px(k)πk12πσexp(12σ2(xμk)2)

Also, wenn Sie dann Protokolle nehmen

logpx(k)logπklog(2πσ)12σ2(xμk)2

Dabei geht erneut in die Proportionalitätskonstante, da dies nicht von abhängt . Erweitern Sie dann den quadratischen Term und Sie sind da (beachten Sie, dass das Erweitern der Klammer einen weiteren Term ergibt, der in verschwindet ).klog(2πσ)k

Andy
quelle
Ich habe gelacht, als ich deine Antwort gelesen habe. So einfach ist das?! Brillant! Darf ich wissen, was die Menge bedeutet (in )? Mein Hintergrund in Statistiken ist schlecht, aber ich kann der Mathematik folgen. δk(x)
cgo
2
Ja, das ist alles was dazu gehört. heißt die lineare Diskriminanzfunktion. Es ist nur eine andere Art, die hintere Wahrscheinlichkeit zu schreiben, dass eine Beobachtung aufgrund ihres charakteristischen zur Klasse gehört . Die Auswahl der Klasse mit der höchsten posterioren Wahrscheinlichkeit aus der Bayes-Regel entspricht der Auswahl der Klasse mit dem höchsten Wert für die LDA. Sie können , um die Bayes'sche Entscheidungsgrenze zu berechnen (die einen Schwellenwert für die Klassifizierung einer Beobachtung als oder ). k x δ k ( x ) = δ l ( x ) k lδk(x)kxδk(x)=δl(x)kl
Andy