Gibt es einen Zusammenhang zwischen Regression und linearer Diskriminanzanalyse (LDA)? Was sind ihre Gemeinsamkeiten und Unterschiede? Macht es einen Unterschied, ob es zwei Klassen oder mehr als zwei Klassen gibt?
24
Gibt es einen Zusammenhang zwischen Regression und linearer Diskriminanzanalyse (LDA)? Was sind ihre Gemeinsamkeiten und Unterschiede? Macht es einen Unterschied, ob es zwei Klassen oder mehr als zwei Klassen gibt?
Antworten:
Ich gehe davon aus, dass es um LDA und lineare (nicht logistische) Regression geht.
Zwischen linearer Regression und linearer Diskriminanzanalyse besteht eine erhebliche und aussagekräftige Beziehung . Falls die abhängige Variable (DV) nur aus 2 Gruppen besteht, sind die beiden Analysen tatsächlich identisch. Obwohl die Berechnungen unterschiedlich sind und die Ergebnisse - Regressions- und Diskriminanzkoeffizienten - nicht gleich sind, sind sie genau proportional zueinander.
Nun zur Situation mit mehr als zwei Gruppen. Nehmen wir zunächst an, dass LDA (die Extraktions- und nicht die Klassifizierungsstufe) der kanonischen Korrelationsanalyse äquivalent ist (linear verwandte Ergebnisse), wenn Sie die Gruppierung DV in einen Satz von Dummy-Variablen (von denen eine redundant herausfällt) umwandeln und die kanonische Analyse durchführen Analyse mit Sets "IVs" und "Dummies". Kanonische Variationen auf der Seite von "IVs", die Sie erhalten, sind das, was LDA "Diskriminanzfunktionen" oder "Diskriminanten" nennt.
Wie hängt nun die kanonische Analyse mit der linearen Regression zusammen? Die kanonische Analyse ist im Wesentlichen eine MANOVA (im Sinne von "Multivariate multiple lineare Regression" oder "Multivariates allgemeines lineares Modell"), die in eine latente Struktur vertieft istvon Beziehungen zwischen den DVs und den IVs. Diese beiden Variationen werden in ihren Wechselbeziehungen in latente "kanonische Variaten" zerlegt. Nehmen wir das einfachste Beispiel, Y vs X1 X2 X3. Die Maximierung der Korrelation zwischen den beiden Seiten ist eine lineare Regression (wenn Sie Y durch Xs vorhersagen) oder - was dasselbe ist - eine MANOVA (wenn Sie Xs durch Y vorhersagen). Die Korrelation ist eindimensional (mit der Größe R ^ 2 = Pillais Spur), da die kleinere Menge Y nur aus einer Variablen besteht. Nehmen wir nun diese beiden Sätze: Y1 Y2 vs X1 x2 x3. Die Korrelation, die hier maximiert wird, ist zweidimensional, da die kleinere Menge 2 Variablen enthält. Die erste und stärkere latente Dimension der Korrelation wird als 1. kanonische Korrelation und der dazu orthogonale Rest als 2. kanonische Korrelation bezeichnet. So, MANOVA (oder lineare Regression) fragt nur, was Teilrollen (die Koeffizienten) von Variablen in der gesamten zweidimensionalen Korrelation von Mengen sind. Während die kanonische Analyse im Folgenden nur die Frage nach den Teilrollen von Variablen in der 1. Korrelationsdimension und in der 2. Dimension behandelt.
Somit ist die kanonische Korrelationsanalyse eine multivariate lineare Regression, die in die latente Beziehungsstruktur zwischen den DVs und IVs vertieft ist. Die Diskriminanzanalyse ist ein besonderer Fall der kanonischen Korrelationsanalyse ( siehe genau wie ). Hier war also die Antwort zum Verhältnis von LDA zur linearen Regression in einem allgemeinen Fall von mehr als zwei Gruppen.
Beachten Sie, dass meine Antwort LDA überhaupt nicht als Klassifizierungstechnik sieht. Ich habe LDA nur als Technik zur Extraktion von Latenten diskutiert. Die Klassifizierung ist die zweite und eigenständige Stufe der LDA (ich habe sie hier beschrieben ). @Michael Chernick hat sich in seinen Antworten darauf konzentriert.
quelle
regression formulation of LDA
es überraschend schwierig, etwas zu finden - es gibt mehrere Forschungsarbeiten, die nach 2000 veröffentlicht wurden und besagen, dass eine solche Formulierung nicht existiert oder existiert versuche einen vorzuschlagen. Gibt es vielleicht einen guten [alten] Hinweis?Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression
.W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling
.Olcay Kursun et al. Canonical correlation analysis using within-class coupling
. Wenn Sie sie nicht im Internet finden, kann ich Ihnen senden. Wenn Sie mehr und bessere Quellen finden, teilen Sie uns dies bitte mit.Hier ist ein Verweis auf einen von Efrons Aufsätzen: Die Effizienz der logistischen Regression im Vergleich zur normalen Diskriminanzanalyse , 1975.
Ein weiteres relevantes Papier ist Ng & Jordan, 2001, On Discriminative vs. Generative Classifierers: Ein Vergleich von logistischer Regression und naivem Bayes . Und hier ist eine Zusammenfassung eines Kommentars von Xue & Titterington , 2008, der O'Neills Arbeiten im Zusammenhang mit seiner Dissertation erwähnt:
Es gibt noch viele andere Referenzen, die Sie online finden können.
quelle
Der Zweck dieser Antwort ist es, die genaue mathematische Beziehung zwischen der linearen Diskriminanzanalyse (LDA) und der multivariaten linearen Regression (MLR) zu erklären. Es wird sich herausstellen, dass die reduzierte Rangregression (RRR) den richtigen Rahmen bietet .
Wir werden zeigen, dass LDA dem RRR der weißen Klassenindikatormatrix in der Datenmatrix entspricht.
Notation
Sei die n × d- Matrix mit Datenpunkten x i in Zeilen und Variablen in Spalten. Jeder Punkt gehört zu einer der k Klassen oder Gruppen. Der Punkt x i gehört zur Klasse g ( i ) .X n × d xich k xich G( i )
Sei die Zugehörigkeit zur n × k- Indikatormatrix-Codierungsgruppe wie folgt: G i j = 1, wenn x i zur Klasse j gehört , und G i j = 0, andernfalls. Es gibt n j Datenpunkte in der Klasse j ; natürlich ist ∑ n j = n .G n × k Gich j= 1 xich j Gich j= 0 nj j ∑ nj= n
Wir gehen davon aus, dass die Daten zentriert sind und der globale Mittelwert Null ist, . Sei μ j der Mittelwert der Klasse j .μ = 0 μj j
LDA
Die Gesamtstreumatrix kann in die Summe von Streumatrizen zwischen Klassen und innerhalb von Klassen zerlegt werden, die wie folgt definiert sind: C bC = X⊤X
Man kann überprüfen, dassC=Cb+Cw. LDA sucht nach Diskriminanzachsen mit maximaler Varianz zwischen den Gruppen und minimaler Varianz innerhalb der Gruppe der Projektion. Insbesondere wird zuerst Diskriminante Achse der EinheitsvektorwMaximierungw⊤CBw/(w⊤C
Unter der Annahme , dass vollen Rang ist, LDA Lösung W L D A die Matrix der Eigenvektoren von C - 1 w C b (durch die Eigenwerte in abnehmender Reihenfolge geordnet).Cw WL D A C- 1wCb
Das war die übliche Geschichte. Lassen Sie uns nun zwei wichtige Beobachtungen machen.
Erstens kann die klasseninterne Streumatrix durch die Gesamtstreumatrix ersetzt werden (letztendlich, weil das Maximieren von dem Maximieren von s / ( s + w ) äquivalent ist ), und es ist in der Tat leicht zu erkennen, dass C - 1 C b hat die gleichen Eigenvektoren.s / w b / ( b + w ) C- 1Cb
Zweitens kann die Streumatrix zwischen Klassen über die oben definierte Gruppenmitgliedschaftsmatrix ausgedrückt werden. In der Tat ist die Matrix der Gruppensummen. Um die Matrix der Gruppenmittelwerte zu erhalten, sollte sie mit einer Diagonalmatrix multipliziert werden, wobei n j auf der Diagonale liegt. es ist von G ⊤ G gegeben . Daher ist die Matrix der Gruppenmittelwerte ( G ⊤ G ) - 1 G ⊤ X ( sapienti wird feststellen, dass es sich um eine Regressionsformel handelt). Um C b zu erhalten , müssen wir seine mit der gleichen Diagonalmatrix gewichtete Streumatrix nehmen, um C b zu erhaltenG⊤X nj G⊤G ( G⊤G )- 1G⊤X Cb Wenn alle n j identisch und gleich m sind ("ausgeglichener Datensatz"), vereinfacht sich dieser Ausdruck zu X ≤ G G ≤ X / m .
Wir können die normalisierte Indikatormatrix mit 1 / √ definierenG˜ wobeiGhat1. Dann ist der Ausdruck sowohl für ausgeglichene als auch für nicht ausgeglichene Datensätze einfach1 / nj--√ G 1 Cb= X⊤G˜G˜⊤X G˜ G˜= G ( G⊤G )- 1 / 2
Regression
Der Einfachheit halber beginnen wir mit einem ausgeglichenen Datensatz.
Der Beweis ist unkompliziert. Für den gegebenen , optimales F kann über Regression gefunden werden: F ⊤ = ( D ⊤ ‖ A ‖ 2 = t r ( A A ⊤ ) Nach einfachen Manipulationen erhalten wir , dass die Regression auf der Maximierung entspricht () die folgende beängstigend.! Spur: trD F F⊤= ( D⊤X⊤X D )- 1D⊤X⊤G
In ähnlicher Weise kann gezeigt werden, dass das Hinzufügen von Ridge-Regularisierung zur reduzierten Rangregression der regularisierten LDA entspricht.
Beziehung zwischen LDA, CCA und RRR
Literaturverzeichnis
Es ist schwer zu sagen, wer die Anerkennung für das verdient, was oben dargestellt ist.
Es gibt ein kürzlich veröffentlichtes Konferenzpapier von Cai et al. (2013) Über das Äquivalent von Regressionen mit niedrigem Rang und Regressionen mit linearer Diskriminanzanalyse , die genau den gleichen Beweis wie oben liefern , aber den Eindruck erwecken, dass sie diesen Ansatz erfunden haben. Dies ist definitiv nicht der Fall. Torre hat ausführlich beschrieben, wie die meisten gängigen linearen multivariaten Methoden als reduzierte Rangregression angesehen werden können (siehe A Least-Squares Framework for Component Analysis , 2009, und ein späteres Buchkapitel A Unification of Component Analysis Methods , 2013). er führt dasselbe Argument an, gibt aber auch keine Hinweise. Dieses Material wird auch im Lehrbuch Modern Multivariate Statistical Techniques behandelt (2008) von Izenman, der RRR bereits 1975 einführte.
Die Beziehung zwischen LDA und CCA geht anscheinend auf Bartlett, 1938, zurück. Weitere Aspekte der Theorie der multiplen Regression - das ist die Referenz, auf die ich oft stoße (die ich aber nicht überprüft habe). Die Beziehung zwischen CCA und RRR ist in Izenman, 1975, Reduced-Rank-Regression für das multivariate lineare Modell, beschrieben . All diese Ideen gibt es also schon eine Weile.
quelle
Lineare Regression und lineare Diskriminanzanalyse sind sehr unterschiedlich. Die lineare Regression bezieht eine abhängige Variable auf einen Satz unabhängiger Prädiktorvariablen. Die Idee ist, eine lineare Funktion in den Parametern zu finden, die am besten zu den Daten passt. In den Kovariaten muss es nicht einmal linear sein. Die lineare Diskriminanzanalyse ist dagegen ein Verfahren zum Klassifizieren von Objekten in Kategorien. Für das Zweiklassenproblem wird versucht, die beste Trennhyperebene für die Aufteilung der Gruppen in zwei Kategorien zu finden. Hier bedeutet am besten, dass es eine Verlustfunktion minimiert, die eine lineare Kombination der Fehlerraten ist. Für drei oder mehr Gruppen wird der beste Satz von Hyperebenen gefunden (k-1 für das k-Klassenproblem). Bei der Diskriminanzanalyse sind die Hypoerebenen in den Merkmalsvariablen linear.
Die Hauptähnlichkeit zwischen den beiden ist in den Titeln der Begriff linear.
quelle