In meinem Projekt möchte ich ein logistisches Regressionsmodell zur Vorhersage der binären Klassifikation (1 oder 0) erstellen.
Ich habe 15 Variablen, von denen 2 kategorisch sind, während der Rest eine Mischung aus kontinuierlichen und diskreten Variablen ist.
Um ein logistisches Regressionsmodell anzupassen, wurde mir geraten, die lineare Trennbarkeit entweder mit SVM, Perceptron oder linearer Programmierung zu überprüfen. Dies entspricht den hier gemachten Vorschlägen zur Prüfung der linearen Trennbarkeit.
Als Neuling im maschinellen Lernen verstehe ich die Grundkonzepte der oben genannten Algorithmen, aber konzeptionell kann ich mir nur schwer vorstellen, wie wir Daten mit so vielen Dimensionen, dh 15 in meinem Fall, trennen können.
Alle Beispiele im Online-Material zeigen in der Regel eine 2D-Darstellung von zwei numerischen Variablen (Größe, Gewicht), die eine deutliche Lücke zwischen den Kategorien aufweisen und das Verständnis erleichtern. In der realen Welt sind Daten jedoch in der Regel viel umfangreicher. Ich werde immer wieder auf den Iris-Datensatz zurückgeführt und versuche, eine Hyperebene durch die drei Arten zu ziehen, und wie es besonders schwierig, wenn nicht unmöglich ist, dies zwischen zwei der Arten zu tun, entgehen mir die beiden Klassen im Moment.
Wie erreicht man dies, wenn wir noch höhere Ordnungen von Dimensionen haben ? Wird angenommen, dass wir eine bestimmte Anzahl von Features überschreiten, die wir mit Hilfe von Kerneln auf einen höherdimensionalen Raum abbilden, um diese Trennbarkeit zu erreichen?
Welche Metrik wird verwendet, um die lineare Trennbarkeit zu testen? Ist es die Genauigkeit des SVM-Modells, dh die Genauigkeit basierend auf der Verwirrungsmatrix?
Jede Hilfe zum besseren Verständnis dieses Themas wäre sehr dankbar. Weiter unten finden Sie ein Beispiel für eine Darstellung von zwei Variablen in meinem Datensatz, die zeigt, wie sich nur diese beiden Variablen überlappen.
quelle
Antworten:
Ich werde versuchen, Ihnen ein Gefühl dafür zu vermitteln, warum das Hinzufügen von Dimensionen einem linearen Klassifikator hilft, zwei Klassen besser zu trennen.
Stellen Sie sich nun vor, Sie weisen einige der Punkte der Klasse 1 und einige der Klasse 2 zu. Beachten Sie, dass wir unabhängig davon, wie wir den Punkten Klassen zuweisen, immer eine Linie zeichnen können, die die beiden Klassen perfekt trennt.
Nehmen wir nun an, wir fügen einen neuen Punkt hinzu:
quelle
Es ist leicht, einen Fehler zu machen, wenn Sie Ihre Intuition für niedrig dimensionale Räume auf hoch dimensionale Räume anwenden. Ihre Intuition ist in diesem Fall genau umgekehrt. Es stellt sich heraus, dass es viel einfacher ist, eine trennende Hyperebene im höherdimensionalen Raum zu finden, als im tieferen Raum.
Auch wenn sich bei der Betrachtung von zwei Variablenpaaren die rote und die blaue Verteilung überlappen, ist es bei gleichzeitiger Betrachtung aller 15 Variablen sehr wahrscheinlich, dass sie sich überhaupt nicht überlappen.
quelle
Sie haben 15 Variablen, aber nicht alle sind für die Unterscheidung Ihrer abhängigen Variablen gleich wichtig (einige von ihnen sind möglicherweise sogar nahezu irrelevant).
Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) berechnet eine lineare Basis dieser 15 Variablen und ordnet sie so an, dass die ersten Komponenten in der Regel den größten Teil der Varianz erklären. Auf diese Weise können Sie ein 15-dimensionales Problem auf ein 2,3,4- oder 5-dimensionales Problem reduzieren. Daher wird das Zeichnen intuitiver. Normalerweise können Sie zwei oder drei Achsen für numerische (oder ordinale) Variablen mit hoher Kardinalität verwenden und dann Markerfarbe, -form und -größe für drei zusätzliche Dimensionen verwenden (möglicherweise mehr, wenn Sie Ordinalzahlen mit niedriger Kardinalität kombinieren können). Das Plotten mit den 6 wichtigsten PCs sollte Ihnen also eine klarere Visualisierung Ihrer Entscheidungsoberfläche ermöglichen.
quelle