Wie LDA, eine Klassifikationstechnik, auch als Dimensionsreduktionstechnik wie PCA dient

19

In diesem Artikel verknüpft der Autor die lineare Diskriminanzanalyse (LDA) mit der Hauptkomponentenanalyse (PCA). Mit meinen begrenzten Kenntnissen kann ich nicht nachvollziehen, wie LDA PCA ähneln kann.

Ich habe immer gedacht, dass LDA eine Art Klassifizierungsalgorithmus ist, ähnlich der logistischen Regression. Ich würde mich über eine Hilfe freuen, um zu verstehen, wie ähnlich LDA PCA ist, dh wie es sich um eine Technik zur Dimensionsreduzierung handelt.

Sieger
quelle
2
Es ist nicht richtig, LDA nur als Klassifizierungstechnik zu bezeichnen. Es ist eine zusammengesetzte, zweistufige Technik: Zuerst die Dimensionalität reduzieren, dann klassifizieren. Im Gegensatz zu PCA wird es als Dimensionsreduktion überwacht. Als Klassifizierung wird im Gegensatz zur logistischen Regression die Grenzwahrscheinlichkeit berücksichtigt.
TTNPHNS
Es ist am klarsten, den Begriff "Dimensionsreduktion" nur für unbeaufsichtigte Lernmethoden zu verwenden, z. B. Clustering und Redundanzanalyse. LDA unterliegt einer strengen Lernüberwachung, sodass eine übermäßige Verzerrung entsteht, wenn es im ersten Schritt der Datenreduktion verwendet wird.
Frank Harrell
Eine ältere, sehr ähnliche Frage: stats.stackexchange.com/q/22884/3277 .
TTNPHNS
1
Frank, verschiedene Strategien, zum Beispiel der Merkmalsauswahl, können in der 1. Stufe der LDA angewendet werden (einschließlich der schrittweisen Annäherung, die dir zuwider ist :-).
TTNPHNS

Antworten:

22

Wie ich im Kommentar zu Ihrer Frage bemerkt habe, handelt es sich bei der Diskriminanzanalyse um ein zusammengesetztes Verfahren mit zwei unterschiedlichen Stufen - Dimensionsreduzierung (überwacht) und Klassifizierungsstufe. Bei der Dimensionsreduktion werden Diskriminanzfunktionen extrahiert, die die ursprünglichen erklärenden Variablen ersetzen. Dann klassifizieren wir (typischerweise nach Bayes 'Ansatz) Beobachtungen unter Verwendung dieser Funktionen zu den Klassen.

Manche Menschen erkennen diese klare zweistufige Natur der LDA nicht, nur weil sie sich nur mit der LDA in zwei Klassen vertraut gemacht haben (so genannte Fisher- Diskriminanzanalyse). In einer solchen Analyse gibt es nur eine Diskriminanzfunktion, und die Klassifizierung ist unkompliziert. Daher kann alles in einem Lehrbuch in einem einzigen "Durchgang" erklärt werden, ohne Konzepte zur Raumreduzierung und Bayes-Klassifizierung einzuladen.

LDA ist eng mit MANOVA verwandt . Letzteres ist eine "oberflächliche und breite" Seite des (multivariaten) linearen Modells, während das "tiefe und fokussierte" Bild eine kanonische Korrelationsanalyse (CCA) ist. Die Sache ist, dass die Korrelation zwischen zwei multivariaten Mengen von Variablen nicht eindimensional ist und durch einige Paare von "latenten" Variablen erklärt wird, die als kanonische Variablen bezeichnet werden.

Als Dimensionsreduktion ist LDA theoretisch eine CCA mit zwei Mengen von Variablen, wobei eine Menge die korrelierten "erklärenden" Intervallvariablen und die andere Menge die Dummy-Variablen (oder andere kontrastcodierte Variablen) sind, die die Gruppen, die Klassen, darstellen von Beobachtungen.k-1k

In CCA betrachten wir die beiden korrelierten Variablensätze X und Y als gleichberechtigt. Daher extrahieren wir kanonische Variablen von beiden Seiten und sie bilden Paare: Variieren Sie 1 aus Menge X und Variieren Sie 1 aus Menge Y mit maximaler kanonischer Korrelation zwischen ihnen; dann variiere 2 von Menge X und variiere 2 von Menge Y mit einer kleineren kanonischen Korrelation usw. In LDA sind wir normalerweise numerisch nicht an kanonischen Variablen von der Klassensatzseite interessiert; wir interessieren uns jedoch für die kanonischen Variationen von der Seite der erklärenden Menge. Diese werden als kanonische Diskriminanzfunktionen oder Diskriminanten bezeichnet .

Die Diskriminanten korrelieren maximal mit den "Linien" der Trennung zwischen den Gruppen. Diskriminanz 1 erklärt den größten Teil der Getrenntheit; Diskriminant 2 greift einen Teil der Trennung auf, die aufgrund der Orthogonalität zur vorherigen Trennung ungeklärt bleibt. Descriminat 3 erklärt noch einige Überbleibsel der Separiertheit orthogonal zu den vorhergehenden beiden usw. In LDA mit Eingangsvariablen (Dimensionen) und Klassen ist die mögliche Anzahl von Diskriminanten (reduzierte Dimensionen) und wann die Annahmen von LDA halten diese Anzahl von ihnen völlig unterschieden zwischen Klassen und sind in der Lage, die Daten vollständig zu den Klassen zu klassifizieren ( siehe ).pkmichn(k-1,p)

Um es noch einmal zu wiederholen, dies ist eigentlich CCA in seiner Natur. LDA mit 3+ Klassen wird sogar als "kanonische LDA" bezeichnet. Obwohl CCA und LDA typischerweise algorithmisch etwas unterschiedlich implementiert sind, sind sie im Hinblick auf die Programmeffizienz "gleich" genug, so dass es möglich ist, Ergebnisse (Koeffizienten usw.), die in einer Prozedur erhalten wurden, mit denen, die in der anderen Prozedur erhalten wurden, neu zu berechnen. Der größte Teil der LDA-Spezifität liegt in der Kodierung der kategorialen Variablen, die Gruppen darstellen. Dies ist das gleiche Dilemma, das in (M) ANOVA beobachtet wird. Unterschiedliche Kodierungsschemata führen zu unterschiedlichen Interpretationsweisen der Koeffizienten.

Da LDA (als Dimensionsreduktion) als ein spezieller Fall von CCA verstanden werden kann, müssen Sie diese Antwort auf jeden Fall untersuchen, indem Sie CCA mit PCA und Regression vergleichen. Der Hauptpunkt dabei ist, dass CCA in gewisser Weise näher an der Regression liegt als an der PCA, da CCA eine überwachte Technik ist (eine latente Linearkombination wird zur Korrelation mit etwas Äußerem erstellt) und PCA nicht (eine latente Linearkombination wird erstellt) das Interne zusammenfassen). Dies sind zwei Zweige der Dimensionsreduktion.

In der Mathematik könnte man feststellen, dass die Varianzen der Hauptkomponenten zwar den Eigenwerten der Datenwolke (der Kovarianzmatrix zwischen den Variablen) entsprechen, die Varianzen der Diskriminanten jedoch nicht so eindeutig mit den Eigenwerten zusammenhängen, in denen sie erzeugt werden LDA. Der Grund dafür ist, dass Eigenwerte in LDA die Form der Datenwolke nicht zusammenfassen. Sie beziehen sich vielmehr auf die abstrakte Größe des Verhältnisses von Klassenunterschieden zu Klassenunterschieden in der Wolke.

Hauptkomponenten maximieren also die Varianz und Diskriminanten maximieren die Klassentrennung; Ein einfacher Fall, in dem ein PC nicht gut genug zwischen Klassen unterscheidet, aber eine Diskriminierungsdose ist, sind diese Bilder. Wenn Diskriminanten als Linien im ursprünglichen Merkmalsraum gezeichnet werden, erscheinen sie normalerweise nicht orthogonal (sie sind jedoch nicht korreliert), PC jedoch.


Fußnote für akribisch. Wie LDA in ihren Ergebnissen genau mit CCA zusammenhängt . Um es zu wiederholen: Wenn Sie LDA mit pVariablen und kKlassen durchführen und CCA mit Set1 als diese pVariablen und Set2 als k-1Indikator-Dummy-Variablen, die Gruppen darstellen, durchführen (tatsächlich sind es nicht notwendigerweise Indikatorvariablen - andere Arten von Kontrastvariablen wie Abweichung oder Helmert - ), dann sind die Ergebnisse in Bezug auf die für Set1 extrahierten kanonischen Variablen äquivalent - sie entsprechen direkt den in der LDA extrahierten Diskriminanzfunktionen. Wie ist die genaue Beziehung?

Algebra und Terminologie von LDA erklärt hier , und Algebra und Terminologie von CCA erklärt hier . Kanonische Korrelationen sind gleich. Aber was ist mit Koeffizienten und "latenten" Werten (Scores)? Man betrachte eine te diskriminante und korrespondierende ( te) kanonische Variante. Für Sie,jj

Standardisierter CCA-KoeffizientLDA-Rohkoeffizient=Kanonischer variabler CCA-WertLDA-Diskriminanzwert=gepoolt innerhalb der Klassenvarianz in der Variable innerhalb der Klassenvarianz in der Diskriminante zusammengefasst

"Innerhalb der Klassenvarianz zusammengefasst" ist der gewichtete Durchschnitt der Gruppenvarianzen mit dem Gewicht = n-1in einer Gruppe. In der Diskriminanz ist diese Größe (in der LDA-Algebra-Verknüpfung gelesen), und daher ist der Proportionalitätskoeffizient zum Umschalten auf CCA-Ergebnisse aus LDA-Ergebnissen einfach . Da jedoch die kanonische Variable in der gesamten Stichprobe standardisiert ist, ist dieser Koeffizient gleich dem (die innerhalb von Gruppen standardisiert ist). Teilen Sie die LDA-Ergebnisse (Koeffizienten und Scores) einfach durch das des Diskriminanten , um die CCA-Ergebnisse zu erhalten.1

gepoolt innerhalb der Klassenvarianz in der Variable
st. Abweichung des Diskriminantenσ

Der Unterschied zwischen CCA und LDA besteht darin, dass LDA "weiß", dass es Klassen (Gruppen) gibt: Sie geben direkt die Gruppen an, die innerhalb und zwischen den Streumatrizen berechnet werden sollen. Dadurch werden sowohl die Berechnungen schneller als auch die Ergebnisse für die spätere Klassifizierung nach Diskriminanten bequemer . CCA hingegen kennt Klassen nicht und verarbeitet die Daten so, als ob sie alle kontinuierliche Variablen wären - was allgemeiner ist, aber eine langsamere Art der Berechnung. Aber die Ergebnisse sind äquivalent und ich habe gezeigt, wie.

Bisher wurde impliziert, dass die k-1Dummies auf typische Weise in CCA eingegeben werden, dh zentriert (wie die Variablen von Set1). Man könnte fragen, ob es möglich ist, alle kDummies zu betreten und nicht zu zentrieren (um der Singularität zu entkommen). Ja, es ist möglich, wenn auch wahrscheinlich weniger bequem. Es erscheint eine zusätzliche kanonische Variable mit einem Eigenwert von Null, Koeffizienten dafür sollten weggeworfen werden. Andere Ergebnisse bleiben gültig. Mit Ausnahme der df s soll die Signifikanz kanonischer Korrelationen überprüft werden. Df für die 1. Korrelation ist, p*kwas falsch ist, und der wahre df wie in LDA ist p*(k-1).

ttnphns
quelle