Drei Versionen der Diskriminanzanalyse: Unterschiede und ihre Verwendung

26

Kann jemand Unterschiede erklären und konkrete Beispiele für die Verwendung dieser drei Analysen nennen?

  • LDA - Lineare Diskriminanzanalyse
  • FDA - Fisher's Diskriminanzanalyse
  • QDA - Quadratische Diskriminanzanalyse

Ich habe überall gesucht, konnte aber keine realen Beispiele mit realen Werten finden, um zu sehen, wie diese Analysen verwendet und Daten berechnet werden. Nur viele Formeln, die ohne reale Beispiele schwer zu verstehen sind. Als ich versuchte zu verstehen, war es schwierig zu unterscheiden, welche Gleichungen / Formeln zu LDA und welche zu FDA gehörten.

Nehmen wir zum Beispiel an, es gibt solche Daten:

x1 x2 class
1  2  a
1  3  a
2  3  a
3  3  a
1  0  b
2  1  b
2  2  b

Und lassen Sie uns einige Testdaten sagen:

x1 x2
2  4
3  5
3  6

Wie können solche Daten mit all diesen drei Ansätzen verwendet werden? Am besten ist es, zu sehen, wie man alles von Hand berechnet, ohne ein Mathematikpaket zu verwenden, das alles hinter den Kulissen berechnet.

PS Ich habe nur dieses Tutorial gefunden: http://people.revoledu.com/kardi/tutorial/LDA/LDA.html#LDA . Es zeigt, wie man LDA benutzt.

Andrius
quelle

Antworten:

23

"Fisher's Discriminant Analysis" ist einfach LDA in einer Situation von 2 Klassen. Bei nur 2 Klassen ist eine manuelle Berechnung möglich und die Analyse steht in direktem Zusammenhang mit der multiplen Regression. LDA ist die direkte Erweiterung von Fishers Idee für die Situation einer beliebigen Anzahl von Klassen und verwendet Matrixalgebra-Geräte (wie z. B. eigendecomposition), um diese zu berechnen. Daher kann der Begriff "Fisher's Diskriminanzanalyse" heute als veraltet angesehen werden. Stattdessen sollte "Lineare Diskriminanzanalyse" verwendet werden. Siehe auch . Die Diskriminanzanalyse mit 2+ Klassen (Mehrfachklassen) ist nach ihrem Algorithmus kanonisch (extrahiert Dicriminanten als kanonische Variablen); seltener Begriff "Canonical Discriminant Analysis"

Fisher verwendete die sogenannten "Fisher-Klassifizierungsfunktionen", um Objekte zu klassifizieren, nachdem die Diskriminanzfunktion berechnet wurde. Heutzutage wird im Rahmen des LDA-Verfahrens ein allgemeinerer Bayes-Ansatz zur Klassifizierung von Objekten verwendet.

Auf Ihre Bitte um Erklärungen zu LDA kann ich Ihnen meine Antworten senden: Extraktion in LDA , Klassifizierung in LDA , LDA unter verwandten Verfahren . Auch dies , dies , diese Fragen und Antworten.

Genau wie für ANOVA die Annahme gleicher Varianzen erforderlich ist, ist für LDA die Annahme gleicher Varianz-Kovarianz-Matrizen (zwischen den Eingangsvariablen) der Klassen erforderlich. Diese Annahme ist wichtig für die Klassifizierungsstufe der Analyse. Wenn sich die Matrizen wesentlich unterscheiden, werden Beobachtungen tendenziell der Klasse zugeordnet, in der die Variabilität größer ist. Um das Problem zu lösen, wurde QDA erfunden. QDA ist eine Modifikation von LDA, die die obige Heterogenität der Kovarianzmatrizen von Klassen berücksichtigt.

Wenn Sie die Heterogenität haben (wie zum Beispiel durch den Box-M-Test festgestellt) und keine QDA zur Hand haben, können Sie die LDA weiterhin im Regime der Verwendung einzelner Kovarianzmatrizen (anstelle der gepoolten Matrix) der Diskriminanten bei der Klassifizierung verwenden . Dies löst das Problem teilweise, wenn auch weniger effektiv als bei der QDA, da dies - wie bereits erwähnt - die Matrizen zwischen den Diskriminanten und nicht zwischen den ursprünglichen Variablen sind (welche Matrizen unterschieden sich).

Lassen Sie mich Ihre Beispieldaten selbst analysieren.


Antworte auf @ zyxues Antwort und Kommentare

LDA ist das, was Sie in Ihrer Antwort als FDA definiert haben. LDA erste Extrakte linear Konstrukte (genannt Diskriminanten) , die zwischen der innerhalb Trennung maximieren, und dann verwenden diese (Gaussian) Klassifizierung durchzuführen. Wenn (wie Sie sagen) LDA nicht mit der Aufgabe verbunden wäre, die Diskriminanten zu extrahieren, wäre LDA anscheinend nur ein Gauß-Klassifikator, und es wäre überhaupt kein Name "LDA" erforderlich.

In dieser Klassifizierungsstufe geht die LDA sowohl von Normalität als auch von Varianz-Kovarianz-Homogenität der Klassen aus. DasSwSws sind gleich, die besagten Kovarianzen innerhalb der Klasse sind alle gleich, Identität; das Recht, sie zu benutzen, wird absolut.)

Der Gaußsche Klassifikator (die zweite Stufe der LDA) verwendet die Bayes-Regel, um Beobachtungen den Klassen durch die Diskriminanten zuzuordnen. Das gleiche Ergebnis kann über sogenannte lineare Klassifizierungsfunktionen von Fisher erzielt werden, die die ursprünglichen Merkmale direkt nutzen. Bayes 'Ansatz, der auf Diskriminanten basiert, ist jedoch ein wenig allgemein, da er die Verwendung separater Kovarianzmatrizen für Klassendiskriminanten zusätzlich zu der Standardmethode zur Verwendung einer, der gepoolten, erlaubt. Außerdem wird es möglich sein, die Klassifizierung auf einer Untergruppe von Diskriminanten aufzubauen.

Wenn es nur zwei Klassen gibt, können beide Stufen der LDA zusammen in einem Durchgang beschrieben werden, da sich "Latente Extraktion" und "Beobachtungsklassifikation" dann auf dieselbe Aufgabe reduzieren.

ttnphns
quelle
Ich erinnere mich, dass ich in meinem maschinellen Lernkurs gelernt habe, dass die Gaußsche 2-Klassen-LDA die Gaußsche Dichte angenommen und die Bayes'sche MPE-Regel verwendet, während die Fisher-LDA nicht die Gaußsche Annahme trifft und das Optimalitätskriterium zur Maximierung des SNR ändert. Stimmt das mit Ihrer Antwort überein?
Austin
1
@Jake Auch daran interessiert, in dieser Antwort: stats.stackexchange.com/questions/87975/… wird angegeben, dass das Ergebnis das gleiche ist. Bemerkungen?
Dole
Sind Sie sicher, dass "Fisher's Discriminant Analysis" einfach LDA in einer Situation von 2 Klassen ist "?
Zyxue
@zyxue, 95% sicher, aber trotzdem finde ich den Begriff obsolet. Bitte lesen Sie meine Fußnote unter stats.stackexchange.com/q/190806/3277 .
TTNPHNS
@ ttnphns, fyi, laut youtu.be/hGKt0yy9q_E?t=3010 sind FDA und LDA in der Literatur häufig verwechselt . Eine Möglichkeit zur Unterscheidung ist die Merkmalsextraktionsmethode, während LDA und QDA Klassifizierungstechniken sind.
Zyxue
1

Es fällt mir schwer zuzustimmen, dass die FDA eine LDA für zwei Klassen ist, wie von @ttnphns vorgeschlagen.

Ich empfehle zwei sehr informative und schöne Vorträge zu diesem Thema von Professor Ali Ghodsi:

  1. LDA & QDA . Darüber hinaus enthält das Buch The Elements of Statistical Learning ( pdf ) auf Seite 108 eine Beschreibung der LDA, die mit der Vorlesung übereinstimmt.
  2. FDA

Für mich sind LDA und QDA ähnlich, da sie beide Klassifizierungstechniken mit Gaußschen Annahmen sind. Ein Hauptunterschied zwischen den beiden besteht darin, dass LDA davon ausgeht, dass die Merkmalskovarianzmatrizen beider Klassen gleich sind, was zu einer linearen Entscheidungsgrenze führt. Im Gegensatz dazu ist QDA weniger streng und erlaubt unterschiedliche Merkmal-Kovarianz-Matrizen für unterschiedliche Klassen, was zu einer quadratischen Entscheidungsgrenze führt. In der folgenden Abbildung von scikit-learn sehen Sie , wie die quadratische Entscheidungsgrenze aussieht.

Einige Kommentare zu den Nebenhandlungen :

  • Obere Reihe: Wenn die Kovarianzmatrizen in den Daten tatsächlich gleich sind, führen LDA und QDA zu den gleichen Entscheidungsgrenzen.
  • Untere Reihe: Wenn die Kovarianzmatrizen unterschiedlich sind, führt LDA zu einer schlechten Leistung, da die Annahme ungültig wird, während QDA die Klassifizierung viel besser durchführt.

Andererseits ist die FDA eine ganz andere Spezies, die nichts mit der Annahme von Gauß zu tun hat. Die FDA versucht, eine lineare Transformation zu finden, um den mittleren Abstand zwischen den Klassen zu maximieren und gleichzeitig die Varianz innerhalb der Klasse zu minimieren . Die 2. Vorlesung erklärt diese Idee sehr schön. Im Gegensatz zu LDA / QDA führt die FDA keine Klassifizierung durch, obwohl die nach der Transformation von der FDA gefundenen Merkmale zur Klassifizierung verwendet werden könnten, z. B. unter Verwendung von LDA / QDA oder SVM oder anderen.

Zyxue
quelle
2
Bitte sehen Sie meine Antwort auf Ihre Antwort in meiner Antwort. Ich habe die Videolektion, auf die Sie verlinken, nicht gesehen. Ich kann also nicht sagen, ob ich damit einverstanden bin. Ich bin nicht mit der Interpretation / Definition (von LDA vs FDA) einverstanden, die Sie in der Antwort geben. Aber das - die Definition der beiden Begriffe - ist für mich kein sehr wichtiges Thema. Es ist wichtiger zu verstehen, wie alles funktioniert.
TTNPHNS
2
Wenn in Ihrem Verständnis FDA doesn't do classification, although the features obtained after transformation found by FDA could be used for classificationdann würde ich sagen, es ist, was ich "Extraktionsphase von LDA" nenne. Natürlich diese extrahierten Funktionen (die Diskriminanzfunktionen) - Sie können sie verwenden, wie Sie möchten. In der Standard-LDA-Klassifikation werden sie als Gaußsche Klassifikatoren verwendet.
TTNPHNS
Ich bin neugierig, wo Sie gelesen haben, dass " LDA zuerst lineare Konstrukte (sogenannte Diskriminanten) extrahiert" ? Ich dachte, es wird lineare Diskriminanz genannt, weil die Entscheidungsgrenze linear ist, was das Ergebnis der Annahme ist, dass die Merkmalskovarianzmatrix für verschiedene Klassen gleich ist. Ebenso hat QDA eine quadratische Entscheidungsgrenze. Diese sind auch in den eingebetteten Figuren dargestellt. Neben den obigen Videos
beziehe
Immerhin denke ich, dass wir über dasselbe reden, aber es ist nur eine Art, Dinge zu benennen. Sie denken, LDA = Feature_extraction + Klassifizierung, aber basierend auf meinen Referenzen handelt es sich bei LDA nur um eine Klassifizierung. Der feature_extraction-Teil hier heißt FDA. Wichtig ist , dass hier nichts mit der Anzahl der hier beteiligten Klassen zu tun hat. Sowohl die LDA als auch die FDA können mit mehr als zwei Klassen umgehen.
Zyxue
Wir können uns an die Definitionen halten, die wir auch verwenden. Wie auch immer, man sollte beachten, dass "lineare Konstrukte" und "lineare Entscheidungsgrenzen" zusammenhängen, im Kontext von DA handelt es sich um dasselbe. Betrachten Sie Ihr Bild mit dem Entscheidungsrand als gerade Linie. Wenn Sie die zu Klassen und Ellipsen transformieren, um sphärisch zu sein, ist die Diskriminanzfunktion genau senkrecht zum Rand. Tatsächlich ist das "Primäre" hier die Diskriminanzfunktion, eine Variable, eine Dimension, während die Entscheidungsgrenze die räumliche Grenze ist, die von ihrer Richtung abhängt. Dez. Grenze ist "sekundär".
TTNPHNS