LDA vs. Perzeptron

9

Ich versuche ein Gefühl dafür zu bekommen, wie LDA in andere überwachte Lerntechniken passt. Ich habe hier bereits einige der LDA-ähnlichen Beiträge über LDA gelesen. Ich bin bereits mit dem Perzeptron vertraut, lerne aber gerade LDA.

Wie passt LDA in die Familie der überwachten Lernalgorithmen? Was könnten seine Nachteile gegenüber diesen anderen Methoden sein und wofür könnte es besser verwendet werden? Warum LDA verwenden, wenn man zum Beispiel nur das Perzeptron verwenden könnte?

Creatron
quelle
1
Ich denke, Sie sind möglicherweise verwirrt darüber, was überwachtes Lernen ist. K-means ist ein unbeaufsichtigter Lernclustering-Algorithmus. Perceptron ist ein überwachter Lernklassifizierungsalgorithmus, der versucht, eine Hyperebene zu finden, die negative von positiven Beobachtungen trennt. LDA ist eine Methode, die für die überwachte Klassifizierung verwendet werden kann, jedoch häufiger für die Auswahl von überwachten Merkmalen verwendet wird. In der Antwort von @ AdamO finden Sie Annahmen zum LDA-Klassifikator.
Bitwise
@ Bitwise Ups! Ich weiß nicht, warum ich dort K-Mittel eingesetzt habe. Ja, es ist ein unbeaufsichtigter Algorithmus. Ich werde es in einer Bearbeitung entfernen.
Creatron
@Bitwise Was Sie über LDA und Perceptron gesagt haben, ist das, was mich verwirrt. LDA versucht, eine Hyperebene zu finden, auf die Ihre Daten projiziert werden können, sodass die Intercluster-Varianz maximiert und die Intra-Cluster-Varianz minimiert wird. Dann haben Sie an der Grenze einen Klassifikator. Perceptron macht etwas Ähnliches, indem es auch versucht, eine optimale Hyperebene zu finden, um die beschrifteten Daten zu trennen. Warum also eins über das andere verwenden?
Creatron

Antworten:

15

Wie AdamO im obigen Kommentar vorschlägt, können Sie nichts Besseres tun, als Kapitel 4 der Elemente des statistischen Lernens (das ich HTF nennen werde) zu lesen, in dem LDA mit anderen linearen Klassifizierungsmethoden verglichen wird, wobei viele Beispiele angegeben und auch die Verwendung erörtert werden von LDA als Dimensionsreduktionstechnik im Sinne von PCA, die, wie ttnphns hervorhebt, ziemlich beliebt ist.

Unter dem Gesichtspunkt der Klassifizierung denke ich, dass der Hauptunterschied dies ist. Stellen Sie sich vor, Sie haben zwei Klassen und möchten diese trennen. Jede Klasse hat eine Wahrscheinlichkeitsdichtefunktion. Die bestmögliche Situation wäre, wenn Sie diese Dichtefunktionen kennen, denn dann könnten Sie vorhersagen, zu welcher Klasse ein Punkt gehören würde, indem Sie die klassenspezifischen Dichten an diesem Punkt bewerten.

Einige Arten von Klassifikatoren arbeiten, indem sie eine Annäherung an die Dichtefunktionen der Klassen finden. LDA ist eine davon; es wird angenommen, dass die Dichten mit derselben Kovarianzmatrix multivariat normal sind. Dies ist eine starke Annahme, aber wenn es ungefähr richtig ist, erhalten Sie einen guten Klassifikator. Viele andere Klassifikatoren verfolgen ebenfalls diesen Ansatz, versuchen jedoch, flexibler zu sein, als Normalität anzunehmen. Siehe beispielsweise Seite 108 von HTF.

Auf der anderen Seite warnt HTF auf Seite 210:

Wenn die Klassifizierung das ultimative Ziel ist, kann es unnötig sein, die einzelnen Klassendichten gut zu lernen, und dies kann tatsächlich irreführend sein.

Ein anderer Ansatz besteht einfach darin, nach einer Grenze zwischen den beiden Klassen zu suchen, was das Perzeptron tut. Eine anspruchsvollere Version davon ist die Support-Vektor-Maschine. Diese Methoden können auch mit dem Hinzufügen von Features zu den Daten mithilfe einer als Kernelisierung bezeichneten Technik kombiniert werden. Dies funktioniert nicht mit LDA, da die Normalität nicht erhalten bleibt, aber es ist kein Problem für einen Klassifizierer, der nur nach einer trennenden Hyperebene sucht.

Der Unterschied zwischen LDA und einem Klassifikator, der nach einer trennenden Hyperebene sucht, ist wie der Unterschied zwischen einem t-Test und einer nichtparameterischen Alternative in der normalen Statistik. Letzteres ist robuster (zum Beispiel für Ausreißer), aber Ersteres ist optimal, wenn seine Annahmen erfüllt sind.

Noch eine Bemerkung: Es könnte erwähnenswert sein, dass einige Menschen kulturelle Gründe für die Verwendung von Methoden wie LDA oder logistischer Regression haben, die ANOVA-Tabellen, Hypothesentests und beruhigende Dinge wie diese verbindlich ausspucken können. LDA wurde von Fisher erfunden; Das Perzeptron war ursprünglich ein Modell für ein menschliches oder tierisches Neuron und hatte keinen Zusammenhang mit Statistiken. Es funktioniert auch umgekehrt; Einige Leute bevorzugen vielleicht Methoden wie Support-Vektor-Maschinen, weil sie die Art von Hipster-Credo haben, mit der Methoden des 20. Jahrhunderts einfach nicht mithalten können. Das bedeutet nicht, dass sie besser sind. (Ein gutes Beispiel dafür finden Sie in Maschinelles Lernen für Hacker , wenn ich mich richtig erinnere.)

Flunderer
quelle
"Einige Leute bevorzugen möglicherweise Methoden wie Support-Vektor-Maschinen, weil sie die Art von Hipster-Credo haben, mit der Methoden des 20. Jahrhunderts einfach nicht mithalten können." LOL! So wahr. Übrigens haben Sie ein Händchen dafür, Dinge sehr klar und genau zu erklären. Vielen Dank! Ich brauchte eine "Karte" darüber, wie die Dinge zusammenpassen, und Sie haben sie bereitgestellt.
Creatron
2

Betrachten Sie für die Intuition diesen Fall:

Geben Sie hier die Bildbeschreibung ein

Die Linie repräsentiert die "optimale Grenze" zwischen den beiden Klassen o und x.

LDA versucht, eine Hyperebene zu finden, die die Intercluster-Varianz minimiert und die Intracluster-Varianz maximiert, und nimmt dann die Grenze als orthogonal zu dieser Hyperebene. Hier wird dies wahrscheinlich nicht funktionieren, da die Cluster eine große Varianz in derselben Richtung aufweisen.

Ein Perzeptron hingegen hat möglicherweise eine bessere Chance, eine gute trennende Hyperebene zu finden.

Bei Klassen mit einer Gaußschen Verteilung wird die LDA wahrscheinlich besser abschneiden, da das Perzeptron nur eine trennende Hyperebene findet, die mit den Daten übereinstimmt, ohne zu garantieren, welche Hyperebene es wählt (es könnte eine unendliche Zahl geben von konsistenten Hyperebenen). Anspruchsvollere Versionen des Perzeptrons können jedoch eine Hyperebene mit einigen optimalen Eigenschaften auswählen, z. B. die Maximierung des Spielraums zwischen den Klassen (dies ist im Wesentlichen das, was Support Vector Machines tun).

Beachten Sie auch, dass sowohl LDA als auch Perzeptron über den Kernel-Trick auf nichtlineare Entscheidungsgrenzen erweitert werden können .

Bitweise
quelle
1

Einer der größten Unterschiede zwischen LDA und den anderen Methoden besteht darin, dass es sich lediglich um eine maschinelle Lerntechnik für Daten handelt, von denen angenommen wird, dass sie normal verteilt sind. Dies kann bei fehlenden Daten oder Kürzungen hilfreich sein, wenn Sie den EM-Algorithmus verwenden können, um die Wahrscheinlichkeit unter sehr seltsamen und / oder interessanten Umständen zu maximieren. Caveat emptor weil Modell Fehlspezifikationen, wie multimodales Daten kann zu schlechter Leistung Vorhersagen führen, dass K-Means - Clustering besser getan hätte. Multimodale Daten können auch mit EM berücksichtigt werden, um latente Variablen oder Cluster in LDA zu erkennen.

Angenommen, Sie möchten die Wahrscheinlichkeit messen, in 5 Jahren eine positive AIDS-Diagnose zu entwickeln, basierend auf der CD4-Zahl. Angenommen, Sie kennen den Wert eines bestimmten Biomarkers nicht, der die CD4-Werte stark beeinflusst und mit einer weiteren Immunsuppression verbunden ist. CD4-Zahlen unter 400 liegen bei den günstigsten Assays unter der unteren Nachweisgrenze. Der EM-Algorithmus ermöglicht es uns, die LDA- und Biomarker-Zuordnung sowie die Mittelwerte und die Kovarianz für CD4 für den nicht abgeschnittenen DF iterativ zu berechnen.

AdamO
quelle
Danke Adam, obwohl ich jetzt verwirrter bin. :-) Wie ist LDA besser / schlechter als das Perceptron oder eine andere überwachte Lerntechnik? In Bezug auf das EM-Algo verwenden Sie es in dem Sinne, dass Sie mit einem EM-Algo nach der LDA suchen können, richtig?
Creatron
1
@AdamO, ich möchte der Klarheit halber hinzufügen, dass LDA als Datenreduktionstechnik nicht auf Normalität beruht, genau wie PCA nicht. Die Normalität innerhalb der LDA ist eine Annahme für 1) statistische Tests (Box-M-Test usw.), 2) Klassifizierung.
ttnphns
@ttnphns unter der Annahme von Normalität bedeutet, dass LDA eine ML-Technik ist. ML ist eine gute Sache. Die spezifischen Vorbehalte in dem Beispiel, das ich erwähnte, verwenden ML, um schwierige Probleme zu lösen. Diese Lösungen wären nur mit ausgefeilten Simulationen und / oder BUGS möglich.
AdamO
@TheGrapeBeyond LDA maximiert den Mahal-Abstand zwischen zwei Gruppen. SLP (Single Layer Perceptron oder Nnet) zeichnet die Hyperebene in den Merkmalsraum, der die maximale Klassifizierungsgenauigkeit erzeugt ... Ich denke. Ein guter Ausgangspunkt ist das Lesen des Tibs / Hastie-Buches. Möglicherweise muss ich das selbst auffrischen.
AdamO