Welche Beziehung besteht zwischen Regression und linearer Diskriminanzanalyse (LDA)?

24

Gibt es einen Zusammenhang zwischen Regression und linearer Diskriminanzanalyse (LDA)? Was sind ihre Gemeinsamkeiten und Unterschiede? Macht es einen Unterschied, ob es zwei Klassen oder mehr als zwei Klassen gibt?

zca0
quelle
3
Hinweis für den Leser: Die Frage ist mehrdeutig und kann als Frage nach logistischer oder linearer Regression verstanden werden . Das OP scheint an beiden Aspekten interessiert gewesen zu sein (siehe Kommentare). Die akzeptierte Antwort bezieht sich auf die lineare Regression, einige andere Antworten konzentrieren sich jedoch auf die logistische Regression.
Amöbe sagt Reinstate Monica

Antworten:

20

Ich gehe davon aus, dass es um LDA und lineare (nicht logistische) Regression geht.

Zwischen linearer Regression und linearer Diskriminanzanalyse besteht eine erhebliche und aussagekräftige Beziehung . Falls die abhängige Variable (DV) nur aus 2 Gruppen besteht, sind die beiden Analysen tatsächlich identisch. Obwohl die Berechnungen unterschiedlich sind und die Ergebnisse - Regressions- und Diskriminanzkoeffizienten - nicht gleich sind, sind sie genau proportional zueinander.

Nun zur Situation mit mehr als zwei Gruppen. Nehmen wir zunächst an, dass LDA (die Extraktions- und nicht die Klassifizierungsstufe) der kanonischen Korrelationsanalyse äquivalent ist (linear verwandte Ergebnisse), wenn Sie die Gruppierung DV in einen Satz von Dummy-Variablen (von denen eine redundant herausfällt) umwandeln und die kanonische Analyse durchführen Analyse mit Sets "IVs" und "Dummies". Kanonische Variationen auf der Seite von "IVs", die Sie erhalten, sind das, was LDA "Diskriminanzfunktionen" oder "Diskriminanten" nennt.

Wie hängt nun die kanonische Analyse mit der linearen Regression zusammen? Die kanonische Analyse ist im Wesentlichen eine MANOVA (im Sinne von "Multivariate multiple lineare Regression" oder "Multivariates allgemeines lineares Modell"), die in eine latente Struktur vertieft istvon Beziehungen zwischen den DVs und den IVs. Diese beiden Variationen werden in ihren Wechselbeziehungen in latente "kanonische Variaten" zerlegt. Nehmen wir das einfachste Beispiel, Y vs X1 X2 X3. Die Maximierung der Korrelation zwischen den beiden Seiten ist eine lineare Regression (wenn Sie Y durch Xs vorhersagen) oder - was dasselbe ist - eine MANOVA (wenn Sie Xs durch Y vorhersagen). Die Korrelation ist eindimensional (mit der Größe R ^ 2 = Pillais Spur), da die kleinere Menge Y nur aus einer Variablen besteht. Nehmen wir nun diese beiden Sätze: Y1 Y2 vs X1 x2 x3. Die Korrelation, die hier maximiert wird, ist zweidimensional, da die kleinere Menge 2 Variablen enthält. Die erste und stärkere latente Dimension der Korrelation wird als 1. kanonische Korrelation und der dazu orthogonale Rest als 2. kanonische Korrelation bezeichnet. So, MANOVA (oder lineare Regression) fragt nur, was Teilrollen (die Koeffizienten) von Variablen in der gesamten zweidimensionalen Korrelation von Mengen sind. Während die kanonische Analyse im Folgenden nur die Frage nach den Teilrollen von Variablen in der 1. Korrelationsdimension und in der 2. Dimension behandelt.

Somit ist die kanonische Korrelationsanalyse eine multivariate lineare Regression, die in die latente Beziehungsstruktur zwischen den DVs und IVs vertieft ist. Die Diskriminanzanalyse ist ein besonderer Fall der kanonischen Korrelationsanalyse ( siehe genau wie ). Hier war also die Antwort zum Verhältnis von LDA zur linearen Regression in einem allgemeinen Fall von mehr als zwei Gruppen.

Beachten Sie, dass meine Antwort LDA überhaupt nicht als Klassifizierungstechnik sieht. Ich habe LDA nur als Technik zur Extraktion von Latenten diskutiert. Die Klassifizierung ist die zweite und eigenständige Stufe der LDA (ich habe sie hier beschrieben ). @Michael Chernick hat sich in seinen Antworten darauf konzentriert.

ttnphns
quelle
Warum brauche ich eine "kanonische Korrelationsanalyse" und was macht sie hier? Vielen Dank.
zca0
1
+1 (vor langer Zeit). Kennen Sie Referenzen, die (etwas detaillierter) diesen Zusammenhang zwischen MANOVA / CCA / Regression zwischen X und der Matrix der Gruppen-Dummies Y und LDA (für den allgemeinen Fall von mehr als zwei Gruppen) diskutieren? Ich studiere jetzt dieses Thema und denke, ich habe es bereits mehr oder weniger herausgefunden, aber wenn ich danach suche, ist regression formulation of LDAes überraschend schwierig, etwas zu finden - es gibt mehrere Forschungsarbeiten, die nach 2000 veröffentlicht wurden und besagen, dass eine solche Formulierung nicht existiert oder existiert versuche einen vorzuschlagen. Gibt es vielleicht einen guten [alten] Hinweis?
Amöbe sagt Reinstate Monica
3
Mmm .. Nur ein paar Papiere schnell in den Sinn kommen: Harry Clahn. Canonical Correlation and Its Relationship to Discriminant Analysis and Multiple Regression. W. Stuetzle. Connections between Canonical Correlation Analysis, Linear Discriminant Analysis, and Optimal Scaling. Olcay Kursun et al. Canonical correlation analysis using within-class coupling. Wenn Sie sie nicht im Internet finden, kann ich Ihnen senden. Wenn Sie mehr und bessere Quellen finden, teilen Sie uns dies bitte mit.
TTNPHNS
1
Meine Passage implizierte überhaupt nicht, dass Sie CCA-Koeffizienten erhalten können, die nur die Ergebnisse der Regression (die MANOVA) zur Hand haben. Ich sagte, dass MANOVA "Oberfläche" und CCA "tiefere" Schichten desselben analytischen Unternehmens sind. Ich habe nicht gesagt, dass es sich um Synonyme handelt oder dass es sich um einen konkreten Fall des anderen handelt.
TTNPHNS
1
Aha. Ich habe mich dazu entschlossen, hier eine weitere Antwort mit den mathematischen Details der LDA / Regressionsäquivalenz zu veröffentlichen.
Amöbe sagt Reinstate Monica
11

Hier ist ein Verweis auf einen von Efrons Aufsätzen: Die Effizienz der logistischen Regression im Vergleich zur normalen Diskriminanzanalyse , 1975.

Ein weiteres relevantes Papier ist Ng & Jordan, 2001, On Discriminative vs. Generative Classifierers: Ein Vergleich von logistischer Regression und naivem Bayes . Und hier ist eine Zusammenfassung eines Kommentars von Xue & Titterington , 2008, der O'Neills Arbeiten im Zusammenhang mit seiner Dissertation erwähnt:

Der Vergleich von generativen und diskriminativen Klassifikatoren ist ein immerwährendes Thema. Als wichtigen Beitrag zu diesem Thema behaupteten Ng und Jordan (NIPS 841 - 848, 2001), dass es auf der Grundlage ihrer theoretischen und empirischen Vergleiche zwischen dem naiven Bayes-Klassifikator und der linearen logistischen Regression zwei unterschiedliche Leistungsregime zwischen den Generativen gibt und diskriminierende Klassifikatoren in Bezug auf die Größe des Trainingssatzes. In diesem Artikel legen unsere empirischen Studien und Simulationsstudien als Ergänzung ihrer Arbeit jedoch nahe, dass die Existenz der beiden unterschiedlichen Regime möglicherweise nicht so zuverlässig ist. Außerdem gibt es für Datensätze der realen Welt bislang kein theoretisch korrektes allgemeines Kriterium für die Wahl zwischen dem diskriminativen und dem generativen Ansatz zur Klassifizierung einer Beobachtungx in eine Klassey ; Die Wahl hängt von dem relativen Vertrauen ab, das wir in die Richtigkeit der Spezifikation von entwederp(y|x) oderp(x,y) für die Daten. Dies kann bis zu einem gewissen Grad ein Beweis dafür sein, warum Efron (J. Am. Stat. Assoc. 70 (352): 892–898, 1975) und O'Neill (J. Am. Stat. Assoc. 75 (369): 154–160, 1980) ) bevorzugen eine normalbasierte lineare Diskriminanzanalyse (LDA), wenn keine Modellfehlspezifikation auftritt, andere empirische Studien jedoch eine lineare logistische Regression bevorzugen. Darüber hinaus schlagen wir vor, dass die Paarung von LDA unter der Annahme einer gemeinsamen diagonalen Kovarianzmatrix (LDA) oder des naiven Bayes-Klassifikators und der linearen logistischen Regression möglicherweise nicht perfekt ist und daher möglicherweise nicht für Aussagen zuverlässig ist, die aus dem Vergleich zwischen LDA abgeleitet wurden oder der naive Bayes-Klassifikator und die lineare logistische Regression, die auf alle generativen und diskriminativen Klassifikatoren verallgemeinert werden sollen.

Es gibt noch viele andere Referenzen, die Sie online finden können.

Michael R. Chernick
quelle
+1 für die vielen gut platzierten Referenzen zum (jetzt vom OP geklärten) Thema der logistischen Regression im Vergleich zur LDA.
Makro
1
Hier ist ein weiterer Vergleich von generativen und diskriminativen Klassifikatoren von Jaroslaw Bulatow über Quora: quora.com/
Pardis
Auch ein verwandtes Thema, stats.stackexchange.com/q/95247/3277
ttnphns
7

Der Zweck dieser Antwort ist es, die genaue mathematische Beziehung zwischen der linearen Diskriminanzanalyse (LDA) und der multivariaten linearen Regression (MLR) zu erklären. Es wird sich herausstellen, dass die reduzierte Rangregression (RRR) den richtigen Rahmen bietet .

Wir werden zeigen, dass LDA dem RRR der weißen Klassenindikatormatrix in der Datenmatrix entspricht.


Notation

Sei die n × d- Matrix mit Datenpunkten x i in Zeilen und Variablen in Spalten. Jeder Punkt gehört zu einer der k Klassen oder Gruppen. Der Punkt x i gehört zur Klasse g ( i ) .Xn×dxichkxichG(ich)

Sei die Zugehörigkeit zur n × k- Indikatormatrix-Codierungsgruppe wie folgt: G i j = 1, wenn x i zur Klasse j gehört , und G i j = 0, andernfalls. Es gibt n j Datenpunkte in der Klasse j ; natürlich ist n j = n .Gn×kGichj=1xichjGichj=0njjnj=n

Wir gehen davon aus, dass die Daten zentriert sind und der globale Mittelwert Null ist, . Sei μ j der Mittelwert der Klasse j .μ=0μjj

LDA

Die Gesamtstreumatrix kann in die Summe von Streumatrizen zwischen Klassen und innerhalb von Klassen zerlegt werden, die wie folgt definiert sind: C bC=XX Man kann überprüfen, dassC=Cb+Cw. LDA sucht nach Diskriminanzachsen mit maximaler Varianz zwischen den Gruppen und minimaler Varianz innerhalb der Gruppe der Projektion. Insbesondere wird zuerst Diskriminante Achse der EinheitsvektorwMaximierungwCBw/(wC

Cb=jnjμjμjCw=(xich-μG(ich))(xich-μG(ich)).
C=Cb+Cww , und die ersten p Diskriminanzachsen, die zu einer Matrix W gestapelt sind,sollten die Spur L L D A = tr ( WC b W ( WC w W ) - 1 ) maximieren .wCbw/(wCww)pW
LLDEIN=tr(WCbW(WCwW)-1).

Unter der Annahme , dass vollen Rang ist, LDA Lösung W L D A die Matrix der Eigenvektoren von C - 1 w C b (durch die Eigenwerte in abnehmender Reihenfolge geordnet).CwWLDEINCw-1Cb

Das war die übliche Geschichte. Lassen Sie uns nun zwei wichtige Beobachtungen machen.

Erstens kann die klasseninterne Streumatrix durch die Gesamtstreumatrix ersetzt werden (letztendlich, weil das Maximieren von dem Maximieren von s / ( s + w ) äquivalent ist ), und es ist in der Tat leicht zu erkennen, dass C - 1 C b hat die gleichen Eigenvektoren.b/wb/(b+w)C-1Cb

Zweitens kann die Streumatrix zwischen Klassen über die oben definierte Gruppenmitgliedschaftsmatrix ausgedrückt werden. In der Tat ist die Matrix der Gruppensummen. Um die Matrix der Gruppenmittelwerte zu erhalten, sollte sie mit einer Diagonalmatrix multipliziert werden, wobei n j auf der Diagonale liegt. es ist von GG gegeben . Daher ist die Matrix der Gruppenmittelwerte ( GG ) - 1 GX ( sapienti wird feststellen, dass es sich um eine Regressionsformel handelt). Um C b zu erhalten , müssen wir seine mit der gleichen Diagonalmatrix gewichtete Streumatrix nehmen, um C b zu erhaltenGXnjGG(GG)-1GXCb Wenn alle n j identisch und gleich m sind ("ausgeglichener Datensatz"), vereinfacht sich dieser Ausdruck zu XG GX / m .

Cb=XG(GG)-1GX.
njmXGGX/m

Wir können die normalisierte Indikatormatrix mit 1 / √ definierenG~ wobeiGhat1. Dann ist der Ausdruck sowohl für ausgeglichene als auch für nicht ausgeglichene Datensätze einfach1/njG1Cb=XG~G~XG~G~=G(GG)-1/2

Regression

Der Einfachheit halber beginnen wir mit einem ausgeglichenen Datensatz.

GXBG-XB2BpBB=DFDFp

DWLDEIN

Der Beweis ist unkompliziert. Für den gegebenen , optimales F kann über Regression gefunden werden: F = ( DA 2 = t r ( A A ) Nach einfachen Manipulationen erhalten wir , dass die Regression auf der Maximierung entspricht () die folgende beängstigend.! Spur: trDFF=(DXXD)-1DXG

G-XD(DXXD)-1DXG2,
EIN2=tr(EINEIN)
tr(DXGGXD(DXXD)-1),
=tr(DCbD(DCD)-1)/mLLDEIN.

GG~

In ähnlicher Weise kann gezeigt werden, dass das Hinzufügen von Ridge-Regularisierung zur reduzierten Rangregression der regularisierten LDA entspricht.

Beziehung zwischen LDA, CCA und RRR

XGY.XY.X

Literaturverzeichnis

Es ist schwer zu sagen, wer die Anerkennung für das verdient, was oben dargestellt ist.

Es gibt ein kürzlich veröffentlichtes Konferenzpapier von Cai et al. (2013) Über das Äquivalent von Regressionen mit niedrigem Rang und Regressionen mit linearer Diskriminanzanalyse , die genau den gleichen Beweis wie oben liefern , aber den Eindruck erwecken, dass sie diesen Ansatz erfunden haben. Dies ist definitiv nicht der Fall. Torre hat ausführlich beschrieben, wie die meisten gängigen linearen multivariaten Methoden als reduzierte Rangregression angesehen werden können (siehe A Least-Squares Framework for Component Analysis , 2009, und ein späteres Buchkapitel A Unification of Component Analysis Methods , 2013). er führt dasselbe Argument an, gibt aber auch keine Hinweise. Dieses Material wird auch im Lehrbuch Modern Multivariate Statistical Techniques behandelt (2008) von Izenman, der RRR bereits 1975 einführte.

Die Beziehung zwischen LDA und CCA geht anscheinend auf Bartlett, 1938, zurück. Weitere Aspekte der Theorie der multiplen Regression - das ist die Referenz, auf die ich oft stoße (die ich aber nicht überprüft habe). Die Beziehung zwischen CCA und RRR ist in Izenman, 1975, Reduced-Rank-Regression für das multivariate lineare Modell, beschrieben . All diese Ideen gibt es also schon eine Weile.

Amöbe sagt Reinstate Monica
quelle
+1 von mir für die Einzelheiten und für das Verweisen auf meine Antwort und für das Einführen der RRR hier (im Voraus abstimmen, da es einige unbekannte Zeit dauern wird, bis ich mich hinsetze, um all diese großartige / beeindruckende Algebra zu durchbrechen!).
ttnphns
0

Lineare Regression und lineare Diskriminanzanalyse sind sehr unterschiedlich. Die lineare Regression bezieht eine abhängige Variable auf einen Satz unabhängiger Prädiktorvariablen. Die Idee ist, eine lineare Funktion in den Parametern zu finden, die am besten zu den Daten passt. In den Kovariaten muss es nicht einmal linear sein. Die lineare Diskriminanzanalyse ist dagegen ein Verfahren zum Klassifizieren von Objekten in Kategorien. Für das Zweiklassenproblem wird versucht, die beste Trennhyperebene für die Aufteilung der Gruppen in zwei Kategorien zu finden. Hier bedeutet am besten, dass es eine Verlustfunktion minimiert, die eine lineare Kombination der Fehlerraten ist. Für drei oder mehr Gruppen wird der beste Satz von Hyperebenen gefunden (k-1 für das k-Klassenproblem). Bei der Diskriminanzanalyse sind die Hypoerebenen in den Merkmalsvariablen linear.

Die Hauptähnlichkeit zwischen den beiden ist in den Titeln der Begriff linear.

Michael R. Chernick
quelle
Entschuldigung, ich habe falsch geschrieben. Sollte Regression und LDA sein. Ich habe einige Artikel über lineare Diskriminanten durch Regression gesehen, aber ich weiß nicht, wie es funktioniert. Ich denke, LDA und logistische Regression für zwei Klassen haben einige Beziehungen, können aber nicht genau sagen, was sie sind. Und für mehr als zwei Klassen weiß ich nicht, ob es irgendwelche Beziehungen gibt.
zca0
1
Ja, es gibt eine Beziehung zwischen logistischer Regression und linearer Diskriminanzanalyse. Efron und sein Schüler Terry O'Neilll schrieben Ende der 1970er Jahre darüber. Ich werde versuchen, einen Link zu einer Referenz zu finden.
Michael R. Chernick
2
Hier finden Sie eine verwandte Frage und Antworten zum Lebenslauf. stats.stackexchange.com/questions/14697/…
Michael R. Chernick
-1 weil es tatsächlich eine tiefe Beziehung zwischen LDA und Regression gibt, wie sowohl @ttnphns als auch ich in unseren Antworten erklären.
Amöbe sagt Reinstate Monica