Wenn ich das richtig verstehe, setzt eine lineare Diskriminanzanalyse (LDA) normalverteilte Daten, unabhängige Merkmale und identische Kovarianzen für jede Klasse für das Optimalitätskriterium voraus.
Ist es nicht schon eine Verletzung, da der Mittelwert und die Varianz aus den Trainingsdaten geschätzt werden?
Ich fand ein Zitat in einem Artikel (Li, Tao, Shenghuo Zhu und Mitsunori Ogihara „ Mit Diskriminanzanalyse für Multi-Klasse Klassifizierung: Eine experimentelle Untersuchung .“. Wissen und Information 10 Systems, no 4 (2006): 453-72 .)
"Die lineare Diskriminanzanalyse erzielt häufig gute Leistungen bei den Aufgaben der Gesichts- und Objekterkennung, obwohl die Annahmen einer gemeinsamen Kovarianzmatrix zwischen Gruppen und Normalität häufig verletzt werden (Duda, et al., 2001)."
- Leider konnte ich den entsprechenden Abschnitt in Duda et. al. "Musterklassifikation".
Irgendwelche Erfahrungen oder Gedanken zur Verwendung von LDA (im Vergleich zu regulärem LDA oder QDA) für nicht normale Daten im Zusammenhang mit der Reduzierung der Dimensionalität?
Antworten:
Hier ist, was Hastie et al. Ich muss dazu (im Kontext der Zwei-Klassen-LDA) in Die Elemente des statistischen Lernens, Abschnitt 4.3, sagen:
Ich verstehe die Ableitung über die kleinsten Quadrate, auf die sie sich beziehen, nicht vollständig, aber im Allgemeinen[Update: Ich werde sie irgendwann kurz zusammenfassen] halte ich diesen Absatz für sinnvoll: Auch wenn die Daten sehr nicht Gauß oder Klasse sind Kovarianzen sind sehr unterschiedlich, die LDA-Achse wird wahrscheinlich immer noch eine gewisse Diskriminierbarkeit ergeben. Der von LDA angegebene Schnittpunkt auf dieser Achse (zwei Klassen trennend) kann jedoch vollständig deaktiviert sein. Eine separate Optimierung kann die Klassifizierung erheblich verbessern.Beachten Sie, dass sich dies nur auf die Klassifizierungsleistung bezieht. Wenn Sie nur nach einer Reduzierung der Dimensionalität suchen, ist die LDA-Achse alles, was Sie brauchen. Ich vermute also, dass LDA zur Reduzierung der Dimensionalität oft gute Arbeit leistet, selbst wenn die Annahmen verletzt werden.
In Bezug auf rLDA und QDA: rLDA muss verwendet werden, wenn nicht genügend Datenpunkte vorhanden sind, um die Kovarianz innerhalb der Klasse zuverlässig abzuschätzen (und ist in diesem Fall von entscheidender Bedeutung). Und QDA ist eine nichtlineare Methode, daher bin ich mir nicht sicher, wie ich sie zur Reduzierung der Dimensionalität verwenden soll.
quelle
LDA/FDA can start with n dimensions and end with k dimensions, where k < n
. Ist das korrekt? Oder der Ausgang istc-1 where c is the number of classes and the dimensionality of the data is n with n>c.