Ich versuche ein Gefühl dafür zu bekommen, wie LDA in andere überwachte Lerntechniken passt. Ich habe hier bereits einige der LDA-ähnlichen Beiträge über LDA gelesen. Ich bin bereits mit dem Perzeptron vertraut, lerne aber gerade LDA.
Wie passt LDA in die Familie der überwachten Lernalgorithmen? Was könnten seine Nachteile gegenüber diesen anderen Methoden sein und wofür könnte es besser verwendet werden? Warum LDA verwenden, wenn man zum Beispiel nur das Perzeptron verwenden könnte?
Antworten:
Wie AdamO im obigen Kommentar vorschlägt, können Sie nichts Besseres tun, als Kapitel 4 der Elemente des statistischen Lernens (das ich HTF nennen werde) zu lesen, in dem LDA mit anderen linearen Klassifizierungsmethoden verglichen wird, wobei viele Beispiele angegeben und auch die Verwendung erörtert werden von LDA als Dimensionsreduktionstechnik im Sinne von PCA, die, wie ttnphns hervorhebt, ziemlich beliebt ist.
Unter dem Gesichtspunkt der Klassifizierung denke ich, dass der Hauptunterschied dies ist. Stellen Sie sich vor, Sie haben zwei Klassen und möchten diese trennen. Jede Klasse hat eine Wahrscheinlichkeitsdichtefunktion. Die bestmögliche Situation wäre, wenn Sie diese Dichtefunktionen kennen, denn dann könnten Sie vorhersagen, zu welcher Klasse ein Punkt gehören würde, indem Sie die klassenspezifischen Dichten an diesem Punkt bewerten.
Einige Arten von Klassifikatoren arbeiten, indem sie eine Annäherung an die Dichtefunktionen der Klassen finden. LDA ist eine davon; es wird angenommen, dass die Dichten mit derselben Kovarianzmatrix multivariat normal sind. Dies ist eine starke Annahme, aber wenn es ungefähr richtig ist, erhalten Sie einen guten Klassifikator. Viele andere Klassifikatoren verfolgen ebenfalls diesen Ansatz, versuchen jedoch, flexibler zu sein, als Normalität anzunehmen. Siehe beispielsweise Seite 108 von HTF.
Auf der anderen Seite warnt HTF auf Seite 210:
Ein anderer Ansatz besteht einfach darin, nach einer Grenze zwischen den beiden Klassen zu suchen, was das Perzeptron tut. Eine anspruchsvollere Version davon ist die Support-Vektor-Maschine. Diese Methoden können auch mit dem Hinzufügen von Features zu den Daten mithilfe einer als Kernelisierung bezeichneten Technik kombiniert werden. Dies funktioniert nicht mit LDA, da die Normalität nicht erhalten bleibt, aber es ist kein Problem für einen Klassifizierer, der nur nach einer trennenden Hyperebene sucht.
Der Unterschied zwischen LDA und einem Klassifikator, der nach einer trennenden Hyperebene sucht, ist wie der Unterschied zwischen einem t-Test und einer nichtparameterischen Alternative in der normalen Statistik. Letzteres ist robuster (zum Beispiel für Ausreißer), aber Ersteres ist optimal, wenn seine Annahmen erfüllt sind.
Noch eine Bemerkung: Es könnte erwähnenswert sein, dass einige Menschen kulturelle Gründe für die Verwendung von Methoden wie LDA oder logistischer Regression haben, die ANOVA-Tabellen, Hypothesentests und beruhigende Dinge wie diese verbindlich ausspucken können. LDA wurde von Fisher erfunden; Das Perzeptron war ursprünglich ein Modell für ein menschliches oder tierisches Neuron und hatte keinen Zusammenhang mit Statistiken. Es funktioniert auch umgekehrt; Einige Leute bevorzugen vielleicht Methoden wie Support-Vektor-Maschinen, weil sie die Art von Hipster-Credo haben, mit der Methoden des 20. Jahrhunderts einfach nicht mithalten können. Das bedeutet nicht, dass sie besser sind. (Ein gutes Beispiel dafür finden Sie in Maschinelles Lernen für Hacker , wenn ich mich richtig erinnere.)
quelle
Betrachten Sie für die Intuition diesen Fall:
Die Linie repräsentiert die "optimale Grenze" zwischen den beiden Klassen o und x.
LDA versucht, eine Hyperebene zu finden, die die Intercluster-Varianz minimiert und die Intracluster-Varianz maximiert, und nimmt dann die Grenze als orthogonal zu dieser Hyperebene. Hier wird dies wahrscheinlich nicht funktionieren, da die Cluster eine große Varianz in derselben Richtung aufweisen.
Ein Perzeptron hingegen hat möglicherweise eine bessere Chance, eine gute trennende Hyperebene zu finden.
Bei Klassen mit einer Gaußschen Verteilung wird die LDA wahrscheinlich besser abschneiden, da das Perzeptron nur eine trennende Hyperebene findet, die mit den Daten übereinstimmt, ohne zu garantieren, welche Hyperebene es wählt (es könnte eine unendliche Zahl geben von konsistenten Hyperebenen). Anspruchsvollere Versionen des Perzeptrons können jedoch eine Hyperebene mit einigen optimalen Eigenschaften auswählen, z. B. die Maximierung des Spielraums zwischen den Klassen (dies ist im Wesentlichen das, was Support Vector Machines tun).
Beachten Sie auch, dass sowohl LDA als auch Perzeptron über den Kernel-Trick auf nichtlineare Entscheidungsgrenzen erweitert werden können .
quelle
Einer der größten Unterschiede zwischen LDA und den anderen Methoden besteht darin, dass es sich lediglich um eine maschinelle Lerntechnik für Daten handelt, von denen angenommen wird, dass sie normal verteilt sind. Dies kann bei fehlenden Daten oder Kürzungen hilfreich sein, wenn Sie den EM-Algorithmus verwenden können, um die Wahrscheinlichkeit unter sehr seltsamen und / oder interessanten Umständen zu maximieren. Caveat emptor weil Modell Fehlspezifikationen, wie multimodales Daten kann zu schlechter Leistung Vorhersagen führen, dass K-Means - Clustering besser getan hätte. Multimodale Daten können auch mit EM berücksichtigt werden, um latente Variablen oder Cluster in LDA zu erkennen.
Angenommen, Sie möchten die Wahrscheinlichkeit messen, in 5 Jahren eine positive AIDS-Diagnose zu entwickeln, basierend auf der CD4-Zahl. Angenommen, Sie kennen den Wert eines bestimmten Biomarkers nicht, der die CD4-Werte stark beeinflusst und mit einer weiteren Immunsuppression verbunden ist. CD4-Zahlen unter 400 liegen bei den günstigsten Assays unter der unteren Nachweisgrenze. Der EM-Algorithmus ermöglicht es uns, die LDA- und Biomarker-Zuordnung sowie die Mittelwerte und die Kovarianz für CD4 für den nicht abgeschnittenen DF iterativ zu berechnen.
quelle