Ich habe einige Profis der Diskriminanzanalyse gefunden und habe Fragen dazu. So:
Wenn die Klassen gut voneinander getrennt sind, sind die Parameterschätzungen für die logistische Regression überraschend instabil. Koeffizienten können bis unendlich gehen. LDA leidet nicht unter diesem Problem.
Wenn die Anzahl der Merkmale gering ist und die Verteilung der Prädiktoren in jeder der Klassen ungefähr normal ist, ist das lineare Diskriminanzmodell wieder stabiler als das logistische Regressionsmodell.
- Was ist Stabilität und warum ist es wichtig? (Wenn logistische Regression eine gute Anpassung ergibt, die ihre Aufgabe erfüllt, warum sollte ich mich dann um Stabilität kümmern?)
LDA ist beliebt, wenn wir mehr als zwei Antwortklassen haben, da es auch niedrig dimensionierte Ansichten der Daten bietet.
- Das verstehe ich einfach nicht. Wie liefert LDA niedrig dimensionale Ansichten?
- Wenn Sie mehr Vor- oder Nachteile nennen können, wäre das schön.
Antworten:
Wenn es kovariate Werte gibt, die das binäre Ergebnis perfekt vorhersagen können, konvergiert der Algorithmus der logistischen Regression, dh das Fisher-Scoring, nicht einmal. Wenn Sie R oder SAS verwenden, erhalten Sie eine Warnung, dass Wahrscheinlichkeiten von Null und Eins berechnet wurden und der Algorithmus abgestürzt ist. Dies ist der Extremfall einer perfekten Trennung, aber selbst wenn die Daten nur zu einem großen Teil und nicht perfekt getrennt sind, existiert der Maximum-Likelihood-Schätzer möglicherweise nicht, und selbst wenn er existiert, sind die Schätzungen nicht zuverlässig. Die resultierende Passform ist überhaupt nicht gut. Auf dieser Seite gibt es viele Themen, die sich mit dem Problem der Trennung befassen.
Im Gegensatz dazu stößt man bei Fisher-Diskriminanten nicht oft auf Schätzungsprobleme. Es kann immer noch vorkommen, dass entweder die Kovarianzmatrix zwischen oder innerhalb der Kovarianzmatrix singulär ist, aber dies ist ein eher seltener Fall. In der Tat ist es umso besser, wenn eine vollständige oder quasi vollständige Trennung vorliegt, da die Diskriminante mit größerer Wahrscheinlichkeit erfolgreich ist.
Erwähnenswert ist auch, dass LDA entgegen der landläufigen Meinung keine Verteilungsannahmen zugrunde legt. Wir fordern implizit nur die Gleichheit der Populations-Kovarianzmatrizen, da ein gepoolter Schätzer für die innere Kovarianzmatrix verwendet wird. Unter den zusätzlichen Annahmen von Normalität, gleichen vorherigen Wahrscheinlichkeiten und Fehlklassifizierungskosten ist die LDA in dem Sinne optimal, dass sie die Wahrscheinlichkeit einer Fehlklassifizierung minimiert.
Dies ist bei zwei Populationen und zwei Variablen leichter zu erkennen. Hier ist eine bildliche Darstellung, wie LDA in diesem Fall funktioniert. Denken Sie daran, dass wir nach linearen Kombinationen der Variablen suchen , die die Trennbarkeit maximieren.
Daher werden die Daten auf den Vektor projiziert, dessen Richtung diese Trennung besser erreicht. Wie wir feststellen, dass der Vektor ein interessantes Problem der linearen Algebra ist, maximieren wir im Grunde genommen einen Rayleigh-Quotienten, lassen dies aber zunächst beiseite. Wenn die Daten auf diesen Vektor projiziert werden, wird die Bemaßung von zwei auf eins reduziert.
Der allgemeine Fall von mehr als zwei Populationen und Variablen wird ähnlich behandelt. Wenn die Bemaßung groß ist, werden linearere Kombinationen verwendet, um sie zu reduzieren. In diesem Fall werden die Daten auf Ebenen oder Hyperebenen projiziert. Es gibt natürlich eine Grenze für die Anzahl der Linearkombinationen, die sich aus der ursprünglichen Dimension der Daten ergibt. Wenn wir die Anzahl der Prädiktorvariablen mit und die Anzahl der Populationen mit g bezeichnen , stellt sich heraus, dass die Anzahl höchstens min beträgt ( g - 1 , p ).p g min(g−1,p) .
Die niederdimensionale Darstellung ist jedoch nicht ohne Nachteile, wobei der wichtigste natürlich der Informationsverlust ist. Dies ist weniger problematisch, wenn die Daten vorliegen linear trennbar sind, aber wenn dies nicht der Fall ist, kann der Informationsverlust erheblich sein und der Klassifikator wird eine schlechte Leistung erbringen.
Es kann auch Fälle geben, in denen die Gleichheit von Kovarianzmatrizen möglicherweise keine verlässliche Annahme ist. Sie können einen Test anwenden, um sicherzustellen, dass diese Tests sehr empfindlich auf Abweichungen von der Normalität reagieren. Daher müssen Sie diese zusätzliche Annahme treffen und auch testen. Wenn sich herausstellt, dass die Populationen normal sind und ungleiche Kovarianzmatrizen aufweisen, könnte stattdessen eine quadratische Klassifizierungsregel (QDA) verwendet werden, aber ich finde, dass dies eine ziemlich umständliche Regel ist, ganz zu schweigen von der Tatsache, dass sie in hohen Dimensionen nicht intuitiv ist.
Insgesamt ist der Hauptvorteil der LDA das Vorhandensein einer expliziten Lösung und deren Rechenfreundlichkeit, was bei fortgeschritteneren Klassifizierungstechniken wie SVM oder neuronalen Netzen nicht der Fall ist. Der Preis, den wir zahlen, sind die dazugehörigen Annahmen, nämlich die lineare Trennbarkeit und die Gleichheit der Kovarianzmatrizen.
Hoffe das hilft.
EDIT : Ich vermute, dass meine Behauptung, dass die LDA für die von mir genannten spezifischen Fälle keine anderen Verteilungsannahmen erfordert als die Gleichheit der Kovarianzmatrizen, mich eine Ablehnung gekostet hat. Dies ist jedoch nicht weniger wahr, lassen Sie mich genauer sein.
Die Lösung dieses Problems (bis zu einer Konstanten) kann gezeigt werden
Dies entspricht der LDA, die Sie unter der Annahme von Normalität, gleichen Kovarianzmatrizen, Fehlklassifizierungskosten und vorherigen Wahrscheinlichkeiten ableiten, richtig? Na ja, außer jetzt, wo wir keine Normalität angenommen haben.
Es gibt nichts, was Sie davon abhält, die oben genannte Diskriminante in allen Einstellungen zu verwenden, selbst wenn die Kovarianzmatrizen nicht wirklich gleich sind. Es ist möglicherweise nicht optimal im Sinne der zu erwartenden Fehlklassifizierungskosten (ECM), aber dies wird überwacht gelernt, sodass Sie die Leistung immer beurteilen können, z. B. mithilfe des Hold-out-Verfahrens.
Verweise
quelle
Die LDA geht im Gegensatz zur logistischen Regression von strengen Verteilungsannahmen (multivariate Normalität aller Prädiktoren) aus. Wenn Sie versuchen, die hinteren Wahrscheinlichkeiten der Klassenmitgliedschaft auf der Grundlage des Geschlechts der Probanden zu ermitteln, werden Sie sehen, was ich meine - die Wahrscheinlichkeiten sind nicht genau.
Sehen Sie diese für weitere Informationen.
Beachten Sie, dass nach dem Bayes-Theorem die Annahmen der logistischen Regression gelten, wenn die multivariable Normalität gilt. Das Gegenteil ist nicht wahr.
Normalität (oder zumindest Symmetrie) muss beinahe zutreffen, damit Varianzen und Kovarianzen "den Job machen". Nicht multivariate normalverteilte Prädiktoren beeinträchtigen sogar die Diskriminantenextraktionsphase.
quelle
Haftungsausschluss: Was hier folgt, lässt die mathematische Genauigkeit völlig vermissen.
Um eine (nichtlineare) Funktion gut anzupassen, benötigen Sie Beobachtungen in allen Bereichen der Funktion, in denen sich "ihre Form ändert". Die logistische Regression fügt den Daten eine Sigmoid-Funktion hinzu:
Bei gut getrennten Klassen fallen alle Beobachtungen auf die beiden "Enden", an denen sich das Sigma seinen Asymptoten nähert (0 und 1). Da in diesen Regionen sozusagen alle Sigmoide "gleich aussehen", ist es kein Wunder, dass der schlecht passende Algorithmus Schwierigkeiten haben wird, "den richtigen" zu finden.
Schauen wir uns zwei (hoffentlich lehrreiche) Beispiele an, die mit R berechnet wurden
glm()
Funktion von .Fall 1: Die beiden Gruppen überschneiden sich ziemlich stark:
und die Beobachtungen verteilen sich gut um den Inflexionspunkt des angepassten Sigmoid:
Dies sind die angepassten Parameter mit schönen niedrigen Standardfehlern:
und die Abweichung sieht auch OK aus:
Fall 2: Die beiden Gruppen sind gut getrennt:
und die Beobachtungen liegen praktisch alle auf den Asymptoten. Die
glm()
Funktion versuchte ihr Bestes, um etwas zu passen, beklagte sich jedoch über die numerischen Wahrscheinlichkeiten 0 oder 1, da einfach keine Beobachtungen verfügbar sind, um die Form des Sigmoid um seinen Wendepunkt herum "richtig zu machen":Sie können das Problem diagnostizieren, indem Sie feststellen, dass die Standardfehler der geschätzten Parameter das Dach durchdringen:
und gleichzeitig sieht die Abweichung verdächtig gut aus (weil die Beobachtungen gut zu den Asymptoten passen):
Zumindest intuitiv sollte aus diesen Überlegungen klar werden, warum "die Parameterschätzungen für die logistische Regression überraschend instabil sind".
quelle