Bayesianische und Fischers Ansätze zur linearen Diskriminanzanalyse

10

Ich kenne zwei Ansätze für LDA, den Bayes'schen Ansatz und den Fisher-Ansatz .

Angenommen, wir haben die Daten , wobei der dimensionale Prädiktor und die abhängige Variable von Klassen ist.(x,y)xpyK

Nach dem Bayes'schen Ansatz berechnen wir das hintere und as wir in den Büchern an, dass ist. Wir haben jetzt die Diskriminanzfunktion für die te Klasse als , ich kann sehen, dass linear ist Funktion von , also haben wir für alle Klassen lineare Diskriminanzfunktionen.

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)kfk(x)xKK.
fk(x)=lnp(x|yk)+lnp(yk)=ln[1(2π)p/2|Σ|1/2exp(12(xμk)TΣ1(xμk))]+lnp(yk)=xTΣ1μk12μkTΣ1μk+lnp(yk)
fk(x)xKK

Nach dem Ansatz von Fisher versuchen wir jedoch, in den -dimensionalen Raum zu projizieren , um die neuen Merkmale zu extrahieren, die die Varianz innerhalb der Klasse minimieren und die Varianz zwischen den Klassen maximieren. Nehmen wir an, die Projektionsmatrix ist wobei jede Spalte eine Projektion ist Richtung. Dieser Ansatz ähnelt eher einer Dimensionsreduktionstechnik .( K - 1 )x(K1)W

Meine Fragen sind

(1) Können wir die Dimension mit dem Bayes'schen Ansatz reduzieren? Ich meine, wir können den Bayes'schen Ansatz verwenden, um eine Klassifizierung indem wir die Diskriminanzfunktionen die den größten Wert für neues , aber können diese Diskriminanzfunktionen verwendet werden, um in einen unterdimensionalen Unterraum zu projizieren ? Genau wie bei Fisher .x f k ( x ) xfk(x)xfk(x)x

(2) In welcher Beziehung stehen die beiden Ansätze zueinander? Ich sehe keine Beziehung zwischen ihnen, weil einer nur in der Lage zu sein scheint, eine Klassifizierung mit dem Wert durchzuführen, und der andere hauptsächlich auf die Dimensionsreduzierung abzielt.fk(x)

AKTUALISIEREN

Dank @amoeba habe ich laut ESL-Buch Folgendes gefunden: Geben Sie hier die Bildbeschreibung ein

und dies ist die lineare Diskriminanzfunktion, die über den Bayes-Satz abgeleitet wird, wobei angenommen wird, dass alle Klassen dieselbe Kovarianzmatrix . Und diese Diskriminanzfunktion ist die GLEICHE wie die oben geschriebene .f k ( x )Σfk(x)

Kann ich als Richtung verwenden, in die projiziert werden soll , um die Dimension zu reduzieren? Ich bin mir nicht sicher, da die AFAIK die Dimensionsreduktion durch die Varianzanalyse zwischen den einzelnen Bereichen erreicht . xΣ1μkx

WIEDER AKTUALISIEREN

Aus Abschnitt 4.3.3 wurden folgende Projektionen abgeleitet:

Geben Sie hier die Bildbeschreibung ein

und natürlich wird eine gemeinsame Kovarianz zwischen den Klassen angenommen, dh die gemeinsame Kovarianzmatrix (fürW die Kovarianz innerhalb der Klasse) , oder? Mein Problem ist, wie berechne ich dieses aus den Daten? Da ich verschiedene Kovarianzmatrizen innerhalb der Klasse hätte, wenn ich versuchen würde, aus den Daten zu berechnen . Also muss ich bündeln alle Klasse Kovarianz zusammen , um eine gemeinsame ein zu erhalten?K W.WKW

Avocado
quelle
1
Ihre Frage vermischt zwei Dinge. Ich denke, Sie haben unser Gespräch über Ihre vorherige Frage nicht verdaut . Was Sie zuerst beschreiben, ist der Bayes'sche Ansatz zur Klassifizierung (nicht der "Bayes'sche Ansatz zur LDA"). Dieser Ansatz kann verwendet werden (1) mit ursprünglichen Variablen als Klassifizierer oder (2) mit Diskriminanten, die in LDA als Klassifizierer erhalten wurden. Wie geht Fisher dann vor?
ttnphns
1
(Forts.) Nun, "Fisher's LDA" ist einfach LDA mit K = 2. Bei der Klassifizierung innerhalb einer solchen LDA erfand Fisher seine eigenen Formeln für die Klassifizierung. Diese Formeln können auch für K> 2 funktionieren. Seine Klassifizierungsmethode wird heutzutage kaum noch angewendet, da der Bayes-Ansatz allgemeiner ist.
ttnphns
1
@ttnphns, der Grund, warum ich verwirrt bin, ist, dass fast jedes Buch, auf das ich mich bezog, über LDA unter Verwendung dieses Bayes'schen Ansatzes sprach und LDA als generatives Modell lehrte. Sie erwähnen nicht das Verhältnis der Varianz zwischen Gruppen und innerhalb der Gruppenvairance .
Avocado
1
@loganecolss: Hast du meine Antwort unten gesehen? Haben Sie Fragen dazu? Ich bin ein bisschen verwirrt, weil ich dachte, ich hätte erklärt, was Sie jetzt in den Kommentaren noch einmal fragen. Der Ansatz "Zwischen-innerhalb-Varianz" ist mathematisch äquivalent zum "Bayes'schen Ansatz" unter der Annahme gleicher Kovarianzen. Sie können sich dies als überraschenden mathematischen Satz vorstellen, wenn Sie möchten. Der Beweis wird in Hasties Buch gegeben, das online frei verfügbar ist, und in einigen anderen Lehrbüchern für maschinelles Lernen. Ich bin mir also nicht sicher, was "der einzig authentische Weg, LDA zu machen" bedeuten könnte; diese beiden identischen Wege.
Amöbe sagt Reinstate Monica
1
@loganecolss: Glauben Sie mir, sie sind gleichwertig :) Ja, Sie sollten in der Lage sein, die Projektionen abzuleiten, aber Sie benötigen eine zusätzliche Annahme gleicher Kovarianzmatrizen (wie ich in meiner Antwort geschrieben habe). Siehe meinen Kommentar unten.
Amöbe sagt Reinstate Monica

Antworten:

10

Ich werde nur eine kurze informelle Antwort geben und Sie für Einzelheiten auf Abschnitt 4.3 der Elemente des statistischen Lernens verweisen .

Update: "The Elements" behandelt genau die Fragen, die Sie hier stellen, einschließlich dessen, was Sie in Ihrem Update geschrieben haben. Der relevante Abschnitt ist 4.3 und insbesondere 4.3.2-4.3.3.

(2) In welcher Beziehung stehen die beiden Ansätze zueinander?

Sie tun es auf jeden Fall. Was Sie als "Bayes'schen" Ansatz bezeichnen, ist allgemeiner und setzt nur Gaußsche Verteilungen für jede Klasse voraus. Ihre Wahrscheinlichkeitsfunktion ist im Wesentlichen der Mahalanobis-Abstand von zum Zentrum jeder Klasse.x

Sie haben natürlich Recht, dass es für jede Klasse eine lineare Funktion von . Beachten Sie jedoch, dass das Verhältnis der Wahrscheinlichkeiten für zwei verschiedene Klassen (das Sie verwenden werden, um eine tatsächliche Klassifizierung durchzuführen, dh zwischen Klassen zu wählen) - dieses Verhältnis in nicht linear ist, wenn verschiedene Klassen unterschiedlich sind Kovarianzmatrizen. Wenn man die Grenzen zwischen Klassen herausarbeitet, stellt sich heraus, dass sie quadratisch sind . Dies wird auch als quadratische Diskriminanzanalyse (QDA) bezeichnet.xxx

Eine wichtige Erkenntnis ist, dass sich Gleichungen erheblich vereinfachen, wenn man annimmt, dass alle Klassen identische Kovarianz haben [ Update: Wenn Sie dies die ganze Zeit angenommen haben, könnte dies Teil des Missverständnisses gewesen sein] . In diesem Fall werden die Entscheidungsgrenzen linear, und deshalb wird dieses Verfahren als lineare Diskriminanzanalyse (LDA) bezeichnet.

Es bedarf einiger algebraischer Manipulationen, um zu erkennen, dass in diesem Fall die Formeln tatsächlich genau dem entsprechen, was Fisher mit seinem Ansatz erarbeitet hat. Betrachten Sie das als einen mathematischen Satz. Siehe Hasties Lehrbuch für die ganze Mathematik.

(1) Können wir die Dimension mit dem Bayes'schen Ansatz reduzieren?

Wenn mit "Bayes'scher Ansatz" der Umgang mit unterschiedlichen Kovarianzmatrizen in jeder Klasse gemeint ist, dann nein. Zumindest wird es keine lineare Dimensionsreduktion sein (im Gegensatz zu LDA), aufgrund dessen, was ich oben geschrieben habe.

Wenn Sie jedoch gerne die gemeinsame Kovarianzmatrix annehmen, dann ja, sicher, denn "Bayes'scher Ansatz" ist einfach gleichbedeutend mit LDA. Wenn Sie jedoch Hastie 4.3.3 überprüfen, werden Sie feststellen, dass nicht die richtigen Projektionen angibt, wie Sie geschrieben haben (ich verstehe nicht einmal, was dies bedeuten sollte: Diese Projektionen sind abhängig von , und was normalerweise mit Projektion gemeint ist, ist eine Möglichkeit, alle Punkte aus allen Klassen auf dieselbe niederdimensionale Mannigfaltigkeit zu projizieren, jedoch durch erste [verallgemeinerte] Eigenvektoren von , wobei eine Kovarianzmatrix von Klassenschwerpunkten . kΣ1μkkΣ1MMμk

Amöbe sagt Reinstate Monica
quelle
1
+1. Ich könnte auch auf meine eigene Antwort verweisen , in der QDA stats.stackexchange.com/a/71571/3277 erwähnt wird .
ttnphns
+1 für die Beantwortung meiner Frage 2). Ich weiß, dass ich durch die Varianzanalyse zwischen den Innenseiten die besten Richtungen finden konnte, um die ursprüngliche Variable zu projizieren und diese Diskriminanten zu erhalten. Was ich gerade zu kämpfen habe, ist, ob ich diese Projektionsrichtungen mit Bayesian finden kann, ohne mich auf das Varianzverhältnis zwischen innerhalb zu beziehen . X
Avocado
@loganecolss: Wie gesagt, du musst zusätzlich davon ausgehen, dass alle Klassen die gleiche Kovarianzmatrix haben! Ausgehend von Ihrem Bayes'schen Ansatz + dieser Annahme können Sie dann die Standard-LDA-Projektionen ableiten. Die Idee ist, zu diagonalisieren . Dies wird ausführlich in Die Elemente des statistischen Lernens, Abschnitt 4.3 beschrieben. Σ
Amöbe sagt Reinstate Monica
Ich werde diesen Abschnitt später lesen. Wie Sie sagten, kann ich unter der Annahme, dass alle Klassen dieselbe Kovarianzmatrix haben, eine Funktion ableiten, die ich in meinem Beitrag , oder? Und ist in der Tat eine lineare Funktion von , und gemäß Ihrem Kommentar sollte die LDA-Projektionsmatrix sein? f k ( x ) x Σ - 1 μ kfk(x)fk(x)xΣ1μk
Avocado
Ich aktualisiere meinen Beitrag und füge einen Clip aus Abschnitt 4.3
Avocado