Wann man was benutzt - Maschinelles Lernen [geschlossen]

39

Kürzlich hat er in einem Kurs für maschinelles Lernen von Professor Oriol Pujol an der UPC / Barcelona die gängigsten Algorithmen, Prinzipien und Konzepte für eine breite Palette von Aufgaben im Zusammenhang mit maschinellem Lernen beschrieben. Hier teile ich sie mit dir und frage dich:

  • Gibt es ein umfassendes Framework, das Aufgaben mit Ansätzen oder Methoden in Bezug auf verschiedene Arten von Problemen im Zusammenhang mit maschinellem Lernen vergleicht?

Wie lerne ich einen einfachen Gaußschen? Wahrscheinlichkeit, Zufallsvariablen, Verteilungen; Schätzung, Konvergenz und Asymptotik, Konfidenzintervall.

Wie lerne ich eine Mischung aus Gaußschen (MoG)? Wahrscheinlichkeit, Erwartungsmaximierung (EM); Generalisierung, Modellauswahl, Kreuzvalidierung; k-means, Hidden Markov Modelle (HMM)

Wie lerne ich eine Dichte? Parametrische vs. nicht-parametrische Schätzung, Sobolev und andere Funktionsräume; l ́ 2 Fehler; Kernel Density Estimation (KDE), optimaler Kernel, KDE-Theorie

Wie prognostiziere ich eine stetige Variable (Regression)? Lineare Regression, Regularisierung, Gratregression und LASSO; lokale lineare Regression; bedingte Dichteschätzung.

Wie prognostiziere ich eine diskrete Variable (Klassifikation)? Bayes-Klassifikator, naiver Bayes, generativ vs. diskriminativ; Perzeptron, Gewichtsabnahme, lineare Stützvektormaschine; Nächster Nachbar Klassifikator und Theorie

Welche Verlustfunktion soll ich verwenden? Maximum-Likelihood-Schätzungstheorie; L -2 Schätzung; Bayesssche Schätzung; Minimax und Entscheidungstheorie, Bayesianismus vs.

Welches Modell soll ich verwenden? AIC und BIC; Vapnik-Chervonenskis-Theorie; Kreuzvalidierungstheorie; Bootstrapping; Wahrscheinlich ungefähr korrekte (PAC) Theorie; Hoeffding-abgeleitete Grenzen

Wie kann ich schickere (kombinierte) Modelle lernen? Ensemble-Lerntheorie; erhöhen; Absacken; Stapeln

Wie kann ich schickere (nichtlineare) Modelle lernen? Verallgemeinerte lineare Modelle, logistische Regression; Kolmogorov-Theorem, verallgemeinerte additive Modelle; Kernelisierung, Reproduktion von Kernel-Hilbert-Räumen, nichtlineare SVM, Gaußsche Prozessregression

Wie kann ich schickere (kompositorische) Modelle lernen? Rekursive Modelle, Entscheidungsbäume, hierarchisches Clustering; Neuronale Netze, Backpropagation, Deep-Believe-Netze; grafische Modelle, Mischungen von HMMs, bedingte Zufallsfelder, Markov-Netzwerke mit maximalem Rand; log-lineare Modelle; Grammatiken

Wie reduziere oder beziehe ich Features? Merkmalsauswahl vs. Dimensionsreduktion, Wrapper-Methoden zur Merkmalsauswahl; Kausalität vs. Korrelation, partielle Korrelation, Bayes-Netzstrukturlernen

Wie erstelle ich neue Funktionen? Hauptkomponentenanalyse (PCA), unabhängige Komponentenanalyse (ICA), mehrdimensionale Skalierung, vielfältiges Lernen, überwachte Dimensionsreduktion, metrisches Lernen

Wie reduziere oder beziehe ich die Daten? Clustering, Bi-Clustering, eingeschränktes Clustering; Assoziationsregeln und Warenkorbanalyse; Ranking / ordinale Regression; Link-Analyse; relationale Daten

Wie behandle ich Zeitreihen? ARMA; Kalman-Filter- und Stat-Space-Modelle, Partikelfilter; funktionale Datenanalyse; Wechselpunkterkennung; Kreuzvalidierung für Zeitreihen

Wie behandle ich nicht ideale Daten? kovariate Verschiebung; Klassenungleichgewicht; fehlende Daten, unregelmäßig abgetastete Daten, Messfehler; Anomalieerkennung, Robustheit

Wie optimiere ich die Parameter? Uneingeschränkte vs. eingeschränkte / konvexe Optimierung, ableitungsfreie Methoden, Methoden erster und zweiter Ordnung, Nachrüstung; natürlicher Gradient; gebundene Optimierung und EM

Wie optimiere ich lineare Funktionen? Computerlineare Algebra, Matrixinversion zur Regression, Singularwertzerlegung (SVD) zur Dimensionsreduktion

Wie optimiere ich mit Einschränkungen? Konvexität, Lagrange-Multiplikatoren, Karush-Kuhn-Tucker-Bedingungen, Innenpunktmethoden, SMO-Algorithmus für SVM

Wie bewerte ich tief verschachtelte Summen? Genaue grafische Modellableitung, Variationsgrenzen für Summen, ungefähre grafische Modellableitung, Erwartungsausbreitung

Wie bewerte ich große Summen und Suchanfragen? Verallgemeinerte N-Körper-Probleme (GNP), hierarchische Datenstrukturen, Suche nach nächsten Nachbarn, schnelle Mehrfachmethode; Monte-Carlo-Integration, Markov-Kette Monte-Carlo, Monte-Carlo-SVD

Wie behandle ich noch größere Probleme? Parallele / verteilte EM, parallele / verteilte BSP; stochastische Subgradientenmethoden, Online-Lernen

Wie wende ich das alles in der realen Welt an? Überblick über die Teile der ML, Auswahl zwischen den für jede Aufgabe zu verwendenden Methoden, Vorkenntnissen und Annahmen; explorative Datenanalyse und Informationsvisualisierung; Auswertung und Interpretation unter Verwendung von Konfidenzintervallen und Hypothesentest, ROC-Kurven; wo die Forschungsprobleme in ML sind

Javierfdr
quelle
Wirklich breit. Ich denke, dass jede Unterfrage eine eigene Frage sein muss, um eine aussagekräftige Antwort zu erhalten.
Amir Ali Akbari
2
Je nachdem, wie Sie es betrachten, kann diese Frage als zu umfassend oder nicht zu umfassend eingestuft werden. Wenn die Frage eine detaillierte Beschreibung der Aufgaben und Methoden implizieren würde , wäre dies sicherlich nicht nur für eine Frage, sondern auch für ein einzelnes Buch umfassend. Ich glaube jedoch nicht, dass diese Frage diese Interpretation impliziert . Ich glaube, dass diese Frage einen Rahmen oder eine Taxonomie sucht , die Aufgaben mit Ansätzen oder Methoden in Einklang bringt ( Algorithmen und Konzepte sollten aus Gründen der Granularität ignoriert werden). Aus dieser Perspektive ist diese Antwort nicht zu weit gefasst und daher meiner Meinung nach gültig.
Alexander Blekh
@AleksandrBlekh Genau ein Framework der von Ihnen genannten Art ist die Absicht der Frage. Ich bearbeite es, um es zu klären. Vielen Dank
Javierfdr
@ Javerfdr: Gern geschehen.
Aleksandr Blekh
@ SeanOwen Ich habe die Hauptfrage geändert. Bitte sag mir, ob es noch breit ist und ich es schärfer machen müsste. Vielen Dank!
Javierfdr

Antworten:

6

Ich bin mit @geogaffer einverstanden. Dies ist in der Tat eine sehr gute Liste. Ich sehe jedoch einige Probleme mit dieser Liste, wie sie derzeit formuliert ist. Ein Problem ist beispielsweise, dass die vorgeschlagenen Lösungen unterschiedliche Granularitätsstufen aufweisen - einige davon stellen Ansätze dar , andere Methoden , andere Algorithmen und andere gerechte Konzepte (mit anderen Worten, Begriffe in der Fachterminologie eines Themas). Darüber hinaus - und ich glaube, dass dies viel wichtiger ist als das oben Gesagte - halte ich es für sehr wertvoll, wenn alle diese Lösungen in der Liste in einem einheitlichen thematischen statistischen Rahmen angeordnet wären. Diese Idee wurde durch das Lesen eines ausgezeichneten Buches von Lisa Harlow "Die Essenz des multivariaten Denkens" inspiriert. Daher habe ich kürzlich eine entsprechende, wenn auch derzeit etwas eingeschränkte, Diskussion auf der Cross Validated- Site von StackExchange eingeleitet . Lassen Sie sich nicht durch den Titel verwirren - meine implizite Absicht und Hoffnung ist es, einen einheitlichen Rahmen zu schaffen , wie oben erwähnt.

Aleksandr Blekh
quelle
Das von Ihnen erwähnte Framework wäre eine großartige Sache! Gibt es etwas ähnliches geschrieben?
Javierfdr
@ Javerfdr: Nichts, was mir bewusst ist. Ich suche jedoch weiter.
Aleksandr Blekh
@AleksandrBlekh je mehr ich darüber nachdenke, desto mehr denke ich, dass die Suche nach einem statistischen Rahmen fehlgeleitet ist. Siehe Frank Harrells Antwort auf Ihre Frage und meine Antwort auf diese Frage. Aber Harlows Buch klingt wirklich interessant und ich werde es diese Woche in der Bibliothek abholen.
Shadowtalker
1
@ssdecontrol: Ich bin mit Respekt anderer Meinung. Unter der Annahme, dass es einen solchen Rahmen nicht gibt (was derzeit wahrscheinlich der Fall ist) und dass es keine leichte Aufgabe ist, einen zu erstellen, bin ich der festen Überzeugung, dass dies dennoch sehr gut möglich ist. Was die Antworten betrifft, die Sie erwähnt haben (ich lese immer alle), lese ich beide, aber sie beweisen nicht, dass das Erstellen eines solchen Rahmens unmöglich ist - nur schwierig, wie ich bereits erwähnt habe. Das sollte die Leute nicht davon abhalten, darüber nachzudenken und sogar darauf hinzuarbeiten. Viel Spaß mit Harlows Buch.
Aleksandr Blekh
3

Das ist eine gute Liste, die viel abdeckt. Ich habe einige dieser Methoden verwendet, seitdem irgendetwas als maschinelles Lernen bezeichnet wurde, und ich denke, Sie werden einige der Methoden, die Sie auflisten, mit der Zeit ein- und aussteigen sehen. Wenn eine Methode zu lange in Ungnade gefallen ist, ist es möglicherweise Zeit für einen erneuten Besuch. Einige Methoden können sich hinter verschiedenen Namen verschleiern, die sich aus verschiedenen Fachgebieten ergeben.

Einer der Hauptbereiche, in denen ich diese Methoden verwendet habe, ist die Mineralpotentialmodellierung, die georäumlich ist, und um dies zu unterstützen, können Sie einige zusätzliche Kategorien hinzufügen, die sich auf räumliche und orientierte Datenmethoden beziehen.

Wenn Sie Ihre allgemeine Frage auf bestimmte Bereiche beziehen, finden Sie wahrscheinlich weitere Beispiele für Methoden, die nicht in Ihrer umfassenden Liste aufgeführt sind. Zum Beispiel waren zwei Methoden, die ich im Bereich des Mineralpotentials gesehen habe, schrittweise Rückschritte und Gewichte der Evidenzmodellierung. Ich bin kein Statistiker. Vielleicht würden diese in der Liste unter linearer Regression und Bayes'schen Methoden als abgedeckt betrachtet.

Geogaffer
quelle
1

Ich denke, Ihr Ansatz ist ein bisschen rückständig.

"Was bedeutet eine an diese Daten angepasste Gaußsche Verteilung?" ist nie die Problemstellung, also "wie passe ich einen Gaußschen an?" ist nie das Problem, das Sie wirklich lösen möchten.

Der Unterschied ist mehr als semantisch. Betrachten Sie die Frage "Wie erstelle ich neue Features?" Wenn Sie einen Index entwickeln möchten, können Sie eine Art Faktorenanalyse verwenden. Wenn Sie vor dem Anpassen eines linearen Modells lediglich den Objektbereich verkleinern möchten, können Sie den Schritt vollständig überspringen und stattdessen die elastische Netzregression verwenden.

Ein besserer Ansatz wäre, eine Liste der eigentlichen Datenanalyse-Aufgaben zusammenzustellen, die Sie angehen möchten . Fragen wie:

Wie kann ich vorhersagen, ob Kunden zu meiner Einkaufswebsite zurückkehren?

Wie erfahre ich, wie viele "Haupt" -Einkaufsmuster für Verbraucher es gibt und welche?

Wie erstelle ich einen "Volatilitätsindex" für verschiedene Artikel in meinem Online-Shop?

Außerdem enthält Ihre Liste im Moment eine enorme Menge an Material. viel zu viel, um mehr als nur ein oberflächliches Verständnis zu erlangen. Wenn Sie einen konkreten Zweck vor Augen haben, können Sie Ihre Prioritäten besser festlegen.

Shadowtalker
quelle
Ich verstehe, was Sie sagen, @ssdecontrol. Eine umfassende Liste der Lösungen für typische Probleme, wie Sie erwähnen, könnte ebenfalls sehr nützlich sein. Der Hauptunterschied zwischen den beiden Ansätzen besteht darin, dass das, was ich vorschlage, direkt mit den technischen Fragen zusammenhängt, die Sie sich möglicherweise stellen, wenn Sie bereits Alternativen ausprobieren, und in diesem Punkt haben Sie bereits einige Annahmen getroffen Soll ich PCA zur Dimensionsreduzierung verwenden, wenn Ihre Features nicht Gauß sind? Nein. Ihre Herangehensweise ist breiter: Was für Dim verwenden. Reduktion -> PCA, aber Gaußsche Merkmale annehmen. Thx
Javierfdr
@Javierfdr Mein Punkt ist, dass die technischen Fragen eine Ablenkung sind, wenn Sie keine inhaltliche Frage haben.
Shadowtalker