Letztes Jahr las ich einen Blogbeitrag von Brendan O'Connor mit dem Titel "Statistik vs. Maschinelles Lernen, Kampf!" das besprach einige der Unterschiede zwischen den zwei Feldern. Andrew Gelman reagierte positiv darauf :
Simon Blomberg:
Aus dem Glückspaket von R: Um es provokativ auszudrücken: „Maschinelles Lernen ist Statistik minus Überprüfung von Modellen und Annahmen“. - Brian D. Ripley (über den Unterschied zwischen maschinellem Lernen und Statistik) useR! 2004, Wien (Mai 2004) :-) Weihnachtsgrüße!
Andrew Gelman:
In diesem Fall sollten wir vielleicht häufiger die Überprüfung von Modellen und Annahmen aufgeben. Dann könnten wir vielleicht einige der Probleme lösen, die die maschinell lernenden Leute lösen können, aber wir können nicht!
Es gab auch das Paper "Statistical Modeling: The Two Cultures" von Leo Breiman aus dem Jahr 2001, in dem argumentiert wurde, dass Statistiker zu stark auf Datenmodellierung setzen und dass maschinelle Lerntechniken Fortschritte erzielen, indem sie sich stattdessen auf die Vorhersagegenauigkeit verlassen von Modellen verlassen.
Hat sich das Statistikfeld in den letzten zehn Jahren aufgrund dieser Kritik geändert? Existieren die beiden Kulturen noch oder wurde die Statistik erweitert, um maschinelle Lerntechniken wie neuronale Netze und Support-Vektor-Maschinen zu berücksichtigen?
Antworten:
Ich denke, die Antwort auf Ihre erste Frage ist einfach zu bejahen. Nehmen Sie eine Ausgabe von Statistical Science, JASA, Annals of Statistics der letzten 10 Jahre und Sie werden Artikel über Boosting, SVM und neuronale Netzwerke finden, obwohl dieser Bereich jetzt weniger aktiv ist. Statistiker haben die Arbeit von Valiant und Vapnik übernommen, aber auf der anderen Seite haben Informatiker die Arbeit von Donoho und Talagrand aufgegriffen. Ich denke, es gibt keinen großen Unterschied mehr in Umfang und Methoden. Ich habe Breimans Argument nie gekauft, dass CS-Leute nur daran interessiert waren, Verluste mit irgendwelchen Mitteln zu minimieren. Diese Ansicht wurde stark von seiner Teilnahme an Konferenzen über neuronale Netze und seiner Beratungstätigkeit beeinflusst. Aber PAC, SVMs und Boosting haben alle eine solide Grundlage. Und heute, im Gegensatz zu 2001, beschäftigt sich Statistics mehr mit Eigenschaften endlicher Stichproben,
Aber ich denke, dass es noch drei wichtige Unterschiede gibt, die nicht bald verschwinden.
quelle
Der größte Unterschied, den ich zwischen den Communities sehe, besteht darin, dass die Statistik die Inferenz betont, während das maschinelle Lernen die Vorhersage betont. Wenn Sie Statistiken erstellen , möchten Sie den Prozess ableiten , mit dem Sie Daten generiert haben. Wenn Sie maschinelles Lernen betreiben , möchten Sie wissen, wie Sie vorhersagen können , wie zukünftige Daten mit einer Variablen aussehen werden.
Natürlich überlappen sich die beiden. Wenn Sie wissen, wie die Daten generiert wurden, erhalten Sie einige Hinweise, wie ein guter Prädiktor aussehen könnte. Ein Beispiel für den Unterschied ist jedoch, dass sich das maschinelle Lernen seit seinen Anfängen mit dem Problem p >> n (mehr Funktionen / Variablen als Trainingsbeispiele) befasst, während die Statistik dieses Problem gerade ernst zu nehmen beginnt. Warum? Weil Sie bei p >> n immer noch gute Vorhersagen treffen können, aber keine guten Rückschlüsse darauf ziehen können, welche Variablen tatsächlich wichtig sind und warum.
quelle
Bayesian: "Hallo Maschinenschüler!"
Frequentist: "Hallo, Maschinenschüler!"
Maschinelles Lernen: "Ich habe gehört, ihr seid gut in Sachen. Hier sind einige Daten."
F: "Ja, schreiben wir ein Modell auf und berechnen dann die MLE."
B: "Hey, F, das hast du mir gestern nicht gesagt! Ich hatte ein paar univariate Daten und wollte die Varianz schätzen, und ich habe die MLE berechnet. Dann hast du dich auf mich gestürzt und mir gesagt, ich soll durch dividieren statt vonnn−1 n . "
F: "Ah ja, danke, dass Sie mich daran erinnert haben. Ich denke oft, dass ich das MLE für alles verwenden soll, aber ich interessiere mich für unvoreingenommene Schätzer und so weiter."
ML: "Ähm, worum geht es in dieser Philosophie? Hilft es mir?"
F: "OK, ein Schätzer ist eine Black Box, Sie geben Daten ein und es werden Zahlen ausgegeben. Uns Vielfachen ist es egal, wie die Box konstruiert wurde, nach welchen Prinzipien sie entworfen wurde. Zum Beispiel I Ich weiß nicht, wie ich ableiten soll÷(n−1) -Regel . "
ML: Also, was kümmert dich das?
F: Bewertung
ML: "Ich mag den Klang davon."
F: "Eine Black Box ist eine Black Box. Wenn jemand behauptet, ein bestimmter Schätzer sei ein unvoreingenommener Schätzer für , dann versuchen wir viele Werte von , erzeugen aus jedem viele Stichproben auf der Grundlage eines angenommenen Modells und drücken sie durch der Schätzer und den Durchschnitt geschätzt . Wenn wir , dass die erwartete Schätzung entspricht den wahren Wert, für alle Werte unter Beweis stellen können, dann sagen wir , es ist unparteiisch.“θ θθ θ θ
ML: "Klingt großartig! Es klingt, als wären Frequentisten pragmatische Menschen. Sie beurteilen jede Black Box anhand ihrer Ergebnisse. Die Bewertung ist der Schlüssel."
F: "In der Tat! Ich verstehe, dass ihr einen ähnlichen Ansatz habt. Quervalidierung oder so? Aber das klingt für mich chaotisch."
ML: "Chaotisch?"
F: "Die Idee, Ihren Schätzer an realen Daten zu testen, erscheint mir gefährlich. Die empirischen Daten, die Sie verwenden, können allerlei Probleme mit sich bringen und sich möglicherweise nicht nach dem Modell verhalten, das wir für die Bewertung vereinbart haben."
ML: „Was ich dachte , Sie sagen , Sie einige Ergebnisse bewiesen würden die Ihr Schätzer immer unvoreingenommen sein würde, für alle? .“θ
F: "Ja. Obwohl Ihre Methode möglicherweise mit einem Datensatz (dem Datensatz mit Zug- und Testdaten) funktioniert hat, den Sie in Ihrer Bewertung verwendet haben, kann ich nachweisen, dass meiner immer funktioniert."
ML: "Für alle Datensätze?"
F: Nein.
ML: "Meine Methode wurde für einen Datensatz kreuzvalidiert. Sie haben Ihre Methode noch nicht an einem echten Datensatz getestet?"
F: "Das stimmt."
ML: "Dann bin ich an der Spitze! Meine Methode ist besser als Ihre. Sie sagt in 90% der Fälle Krebs voraus. Ihr 'Beweis' ist nur gültig, wenn sich der gesamte Datensatz gemäß dem von Ihnen angenommenen Modell verhält."
F: "Emm, ja, ich nehme an."
ML: "Und dieses Intervall hat eine Abdeckung von 95% . Aber ich sollte mich nicht wundern, wenn es nur den korrekten Wert von 20% der Zeit enthält?"θ
F: "Das stimmt. Wenn die Daten nicht wirklich normal sind (oder was auch immer), ist mein Beweis nutzlos."
ML: Also ist meine Bewertung vertrauenswürdiger und umfassender? Sie funktioniert nur mit den Datensätzen, die ich bisher ausprobiert habe, aber zumindest mit echten Datensätzen, Warzen und allem "und" gründlich "und dass Sie an Model-Checks und so interessiert waren."
B: (wirft ein) "Hey Leute, tut mir leid, dass ich unterbreche. Ich würde gerne eingreifen und die Dinge ausbalancieren, um vielleicht ein paar andere Probleme zu demonstrieren, aber ich liebe es wirklich zu beobachten, wie sich mein Stammkollege windet."
F: "Woah!"
ML: Okay, Kinder. Es ging nur um Evaluierung. Ein Schätzer ist eine Black Box. Daten gehen ein, Daten kommen heraus. Wir genehmigen oder missbilligen einen Schätzer basierend auf der Leistung, die er bei der Evaluierung erbringt. Es ist uns egal über das ‚Rezept 'oder die‚ Gestaltungsprinzipien', die verwendet werden. "
F: "Ja. Aber wir haben sehr unterschiedliche Vorstellungen darüber, welche Bewertungen wichtig sind. ML wird echte Daten trainieren und testen. Ich werde eine allgemeinere Bewertung durchführen (da es sich um einen allgemein anwendbaren Beweis handelt) und auch eingeschränkter (weil ich nicht weiß, ob Ihr Datensatz tatsächlich aus den Modellannahmen stammt, die ich beim Entwerfen meiner Bewertung verwende.) "
ML: "Welche Bewertung verwenden Sie, B?"
F: (wirft ein) "Hey. Bring mich nicht zum Lachen. Er bewertet nichts. Er benutzt nur seine subjektiven Überzeugungen und rennt damit. Oder so."
B: "Das ist die übliche Interpretation. Aber es ist auch möglich, den Bayesianismus durch die bevorzugten Bewertungen zu definieren. Dann können wir die Idee verwenden, dass es niemanden interessiert, was sich in der Black Box befindet, wir kümmern uns nur um verschiedene Arten der Bewertung."
B fährt fort: "Klassisches Beispiel: Medizinischer Test. Das Ergebnis des Bluttests ist entweder positiv oder negativ. Ein Frequentist wird sich für die gesunden Menschen interessieren, welcher Anteil ein negatives Ergebnis erzielt. Und ebenso, welcher Anteil der Kranken Der Frequentist berechnet diese Werte für jede in Betracht gezogene Blutuntersuchungsmethode und empfiehlt dann, den Test zu verwenden, bei dem das beste Ergebnis erzielt wird. "
F: "Genau. Was willst du mehr?"
B: Was ist mit den Personen, die ein positives Testergebnis erzielt haben? Sie werden wissen wollen, wie viele von denen, die ein positives Ergebnis erzielen, krank werden. und 'von denen, die ein negatives Ergebnis erzielen, wie viele sind gesund?' "
ML: "Ah ja, das scheint ein besseres Paar von Fragen zu sein."
F: "HIER!"
B: "Jetzt geht es wieder los. Ihm gefällt nicht, wohin das führt."
ML: "Es geht um 'Vorgesetzte', nicht wahr?"
F: "BÖSE".
B: "Wie auch immer, ja, Sie haben Recht, ML. Um den Anteil der Kranken mit positivem Ergebnis zu berechnen, müssen Sie eines von zwei Dingen tun. Eine Option besteht darin, die Tests an vielen Menschen durchzuführen und nur das zu beobachten relevante Proportionen. Wie viele dieser Menschen sterben zum Beispiel an der Krankheit. "
ML: "Das klingt nach dem, was ich tue. Benutze Training und Test."
B: "Aber Sie können diese Zahlen im Voraus berechnen, wenn Sie bereit sind, eine Annahme über die Krankheitsrate in der Bevölkerung zu treffen. Der Frequentist führt seine Berechnungen auch im Voraus durch, ohne jedoch diese Krankheitsrate auf Bevölkerungsniveau zu verwenden."
F: "MEHR UNBEGRÜNDETE ANNAHMEN."
B: Oh, halt die Klappe. Früher wurden Sie herausgefunden. ML stellte fest, dass Sie ebenso unbegründete Annahmen mögen wie jeder andere. Ihre 'nachgewiesenen' Wahrscheinlichkeiten werden sich in der realen Welt nicht stapeln, wenn nicht alle Ihre Annahmen stimmen. Warum ist meine vorherige Annahme so unterschiedlich? Sie nennen mich verrückt, tun aber so, als ob Ihre Annahmen die Arbeit einer konservativen, soliden, annahmenfreien Analyse sind. "
B (fährt fort): "Wie auch immer, ML, wie ich schon sagte. Bayesianer mögen eine andere Art der Auswertung. Wir sind mehr daran interessiert, die beobachteten Daten zu konditionieren und die Genauigkeit unseres Schätzers entsprechend zu berechnen. Wir können diese Auswertung nicht durchführen ohne Verwendung von durchführen a prior. Aber das Interessante ist, dass wir, sobald wir uns für diese Form der Bewertung entschieden haben und uns für unseren Prior entschieden haben, ein automatisches „Rezept" haben, um einen geeigneten Schätzer zu erstellen. Der Frequentist hat kein solches Rezept. Wenn er eines will "Unparteiischer Schätzer für ein komplexes Modell, er hat keine automatisierte Möglichkeit, einen geeigneten Schätzer zu erstellen."
ML: "Und Sie? Sie können automatisch einen Schätzer erstellen?"
B: "Ja. Ich habe keine automatische Möglichkeit, einen unvoreingenommenen Schätzer zu erstellen, da ich der Meinung bin, dass eine Verzerrung eine schlechte Möglichkeit ist, einen Schätzer zu bewerten. Angesichts der von den Daten abhängigen Schätzung, die ich mag, und der vorherigen kann den Prior und die Wahrscheinlichkeit verbinden, mir den Schätzer zu geben. "
ML: Wie auch immer, lassen Sie uns zusammenfassen. Wir haben alle verschiedene Möglichkeiten, unsere Methoden zu bewerten, und wir werden uns wahrscheinlich nie darauf einigen, welche Methoden die besten sind.
B: Nun, das ist nicht fair. Wir könnten sie mischen und aufeinander abstimmen. Wenn einer von uns gut etikettierte Trainingsdaten hat, sollten wir sie wahrscheinlich testen. Und im Allgemeinen sollten wir alle so viele Annahmen wie möglich testen "Beweise könnten auch Spaß machen und die Leistung unter einem vermuteten Modell der Datenerzeugung vorhersagen."
F: "Ja Leute. Lasst uns pragmatisch über die Bewertung sein. Und tatsächlich werde ich aufhören, von Eigenschaften mit unendlichen Stichproben zu besessen. Ich habe die Wissenschaftler gebeten, mir eine unendliche Stichprobe zu geben, aber sie haben es immer noch nicht getan. Es ist Zeit für mich, mich wieder auf endliche Proben zu konzentrieren. "
ML: "Also, wir haben nur eine letzte Frage. Wir haben viel darüber gestritten, wie wir unsere Methoden bewerten , aber wie wir unsere Methoden erstellen ."
B: Ah. Wie ich bereits sagte, haben wir Bayesianer die leistungsstärkere allgemeine Methode. Es mag kompliziert sein, aber wir können immer einen Algorithmus schreiben (vielleicht eine naive Form von MCMC), der von unserem posterioren abgetastet wird. "
F (wirft ein): "Aber es könnte Voreingenommenheit haben."
B: Könnten auch Ihre Methoden. Muss ich Sie daran erinnern, dass die MLE oft voreingenommen ist? Manchmal haben Sie große Schwierigkeiten, unvoreingenommene Schätzer zu finden, und selbst wenn Sie einen dummen Schätzer haben (für ein wirklich komplexes Modell), der sagt, dass Varianz ist negativ. Und Sie nennen das unvoreingenommen. Unvoreingenommen, ja. Aber nützlich, nein! "
ML: "Okay, Leute. Du hast dich wieder geärgert. Lass mich dir eine Frage stellen, F. Hast du jemals die Abweichung von deiner Methode mit der Abweichung von Bs Methode verglichen, als du beide an demselben Problem gearbeitet hast?"
F: "Ja. Tatsächlich gebe ich es nicht gern zu, aber der Ansatz von B hat manchmal eine geringere Voreingenommenheit und MSE als mein Schätzer!"
ML: "Die Lehre hier ist, dass keiner von uns das Monopol hat, einen Schätzer zu erstellen, der Eigenschaften hat, die wir haben wollen, obwohl wir uns ein wenig nicht einig sind."
B: "Ja, wir sollten die Arbeit des anderen ein bisschen mehr lesen. Wir können uns gegenseitig Inspirationen für Schätzer geben. Wir könnten feststellen, dass die Schätzer des anderen bei unseren eigenen Problemen großartig funktionieren."
F: "Und ich sollte aufhören, von Voreingenommenheit besessen zu sein. Ein unvoreingenommener Schätzer könnte eine lächerliche Varianz aufweisen. Ich nehme an, wir alle müssen die Verantwortung für die Entscheidungen übernehmen, die wir bei der Bewertung treffen und für die Eigenschaften, die wir in unseren Schätzern sehen möchten. Wir können nicht hinter einer Philosophie zurückbleiben. Versuchen Sie alle Bewertungen, die Sie können. Und ich werde weiterhin einen Blick auf die Bayes'sche Literatur werfen, um neue Ideen für Schätzer zu erhalten! "
B: "Tatsächlich wissen viele Leute nicht wirklich, was ihre eigene Philosophie ist. Ich bin mir selbst nicht sicher. Wenn ich ein Bayesianisches Rezept verwende und dann ein nettes theoretisches Ergebnis beweise, heißt das nicht, dass ich Ich bin ein Frequentist? Ein Frequentist kümmert sich um die oben genannten Leistungsnachweise, er kümmert sich nicht um Rezepte. Und wenn ich stattdessen (oder auch) ein paar Tests mache, heißt das, dass ich ein Maschinenlerner bin? "
ML: "Dann scheinen wir uns alle ziemlich ähnlich zu sein."
quelle
In einer solchen Diskussion erinnere ich mich immer an das berühmte Ken Thompson-Zitat
In diesem Fall ist maschinelles Lernen eine Rettung, wenn die Annahmen schwer zu fassen sind. oder zumindest ist es viel besser, als sie falsch zu erraten.
quelle
Was mehr Trennung erzwingt, als es sein sollte, ist das Lexikon jeder Disziplin.
Es gibt viele Fälle, in denen ML einen Begriff verwendet und Statistik einen anderen Begriff verwendet - aber beide beziehen sich auf dasselbe - gut, das würde man erwarten, und es führt zu keiner dauerhaften Verwirrung (z. B. Merkmale / Attribute versus Erwartung) Variablen oder neuronales Netzwerk / MLP versus Projektionsverfolgung).
Viel ärgerlicher ist, dass beide Disziplinen den gleichen Begriff verwenden, um sich auf völlig unterschiedliche Konzepte zu beziehen.
Einige Beispiele:
Kernel-Funktion
In ML werden Kernelfunktionen in Klassifikatoren (z. B. SVM) und natürlich in Kernelmaschinen verwendet. Der Begriff bezieht sich auf eine einfache Funktion ( Cosinus, Sigmoidal, Rbf, Polynom ) zum Abbilden von nicht linear trennbaren Daten auf einen neuen Eingaberaum, sodass die Daten nun in diesem neuen Eingaberaum linear trennbar sind. (im Gegensatz zur Verwendung eines nichtlinearen Modells).
In der Statistik ist eine Kernelfunktion eine Gewichtungsfunktion, die bei der Dichteschätzung verwendet wird, um die Dichtekurve zu glätten.
Regression
In ML werden Vorhersagealgorithmen oder Implementierungen dieser Algorithmen, die Klassenbezeichnungen "Klassifizierer" zurückgeben, (manchmal) als Maschinen bezeichnet - z. B. Support-Vektor-Maschine , Kernel-Maschine . Das Gegenstück zu Maschinen sind Regressoren , die eine Punktzahl (stetige Variable) zurückgeben - z. B. die Unterstützung der Vektorregression .
In seltenen Fällen haben die Algorithmen je nach Modus unterschiedliche Namen. Beispielsweise wird der Begriff MLP verwendet, unabhängig davon, ob eine Klassenbezeichnung oder eine kontinuierliche Variable zurückgegeben wird.
Wenn Sie in Statistik, Regression versuchen, ein Modell basierend auf empirischen Daten zu erstellen, um eine Antwortvariable basierend auf einer oder mehreren erklärenden Variablen oder mehreren Variablen vorherzusagen, führen Sie eine Regressionsanalyse durch. Es spielt keine Rolle, ob die Ausgabe eine kontinuierliche Variable oder eine Klassenbezeichnung ist (z. B. logistische Regression). So bezieht sich beispielsweise die Regression der kleinsten Quadrate auf ein Modell, das einen kontinuierlichen Wert zurückgibt. Andererseits gibt die logistische Regression eine Wahrscheinlichkeitsschätzung zurück, die dann in Klassenbeschriftungen diskretisiert wird.
Vorspannen
In ML ist der Bias- Term im Algorithmus konzeptionell identisch mit dem Intercept- Term, den Statistiker bei der Regressionsmodellierung verwenden.
In der Statistik ist die Verzerrung ein nicht zufälliger Fehler, dh, ein Phänomen hat den gesamten Datensatz in dieselbe Richtung beeinflusst, was wiederum bedeutet, dass diese Art von Fehler nicht durch erneutes Abtasten oder Erhöhen der Stichprobengröße beseitigt werden kann.
quelle
Maschinelles Lernen scheint eine pragmatische Grundlage zu haben - eine praktische Beobachtung oder Simulation der Realität. Selbst innerhalb der Statistik kann eine sinnlose "Überprüfung von Modellen und Annahmen" dazu führen, dass nützliche Methoden verworfen werden.
Zum Beispiel wurde vor Jahren das allererste im Handel erhältliche (und funktionierende) Insolvenzmodell, das von den Kreditauskunfteien implementiert wurde, durch ein einfaches altes lineares Regressionsmodell mit dem Ziel eines 0-1-Ergebnisses erstellt. Technisch ist das ein schlechter Ansatz, aber praktisch hat es funktioniert.
quelle
Die größten Unterschiede, die ich im letzten Jahr bemerkt habe, sind:
quelle
Ich stimme dieser Frage nicht zu, da dies darauf hindeutet, dass maschinelles Lernen und Statistik unterschiedliche oder widersprüchliche Wissenschaften sind ... wenn das Gegenteil der Fall ist!
Maschinelles Lernen nutzt Statistiken in großem Umfang ... Ein kurzer Überblick über Softwarepakete für maschinelles Lernen oder Data Mining zeigt Clustering-Techniken wie k-means, die auch in der Statistik zu finden sind auch eine statistische Technik ... sogar logistische Regression noch eine andere.
Meiner Ansicht nach besteht der Hauptunterschied darin, dass traditionell Statistiken verwendet wurden, um eine vorgefertigte Theorie zu beweisen, und dass die Analyse in der Regel auf dieser Haupttheorie beruhte. Während beim Data Mining oder beim maschinellen Lernen normalerweise das Gegenteil der Fall ist, möchten wir nur einen Weg finden, dies vorherzusagen, anstatt die Frage zu stellen oder die Theorie zu bilden, ist dies das Ergebnis!
quelle
Ich habe auf einem anderen Forum der ASA Statistical Consulting eGroup darüber gesprochen. Meine Antwort betraf insbesondere das Data Mining, aber beides geht Hand in Hand. Wir Statistiker haben Data Minern, Informatikern und Ingenieuren die Nase gerissen. Es ist falsch. Ich denke, ein Grund dafür ist, dass einige Leute auf diesen Gebieten die stochastische Natur ihres Problems ignorieren. Einige Statistiker nennen Data Mining Data Snooping oder Data Fishing. Einige Leute missbrauchen und missbrauchen die Methoden, aber Statistiker sind beim Data Mining und beim maschinellen Lernen ins Hintertreffen geraten, weil wir sie mit einem breiten Pinsel zeichnen. Einige der großen statistischen Ergebnisse stammen von außerhalb des Statistikbereichs. Boosting ist ein wichtiges Beispiel. Aber Statistiker wie Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman und andere haben es verstanden und ihre Führung hat Statistiker in die Analyse von Microarrays und anderen großen Inferenzproblemen einbezogen. Während die Kulturen vielleicht nie ineinander greifen, gibt es jetzt mehr Kooperation und Zusammenarbeit zwischen Informatikern, Ingenieuren und Statistikern.
quelle
Das eigentliche Problem ist, dass diese Frage falsch ist. Es ist nicht maschinelles Lernen gegen Statistik, es ist maschinelles Lernen gegen echten wissenschaftlichen Fortschritt. Wenn ein Gerät für maschinelles Lernen in 90% der Fälle die richtigen Vorhersagen liefert, ich aber das "Warum" nicht verstehe, welchen Beitrag leistet maschinelles Lernen für die Wissenschaft insgesamt? Stellen Sie sich vor, Sie würden maschinelles Lernen anwenden, um die Positionen von Planeten vorherzusagen: Viele selbstgefällige Menschen glauben, mit ihren SVMs eine Reihe von Dingen genau vorhersagen zu können, aber was würden sie wirklich über das Problem wissen, das sie in ihren Händen haben? ? Offensichtlich schreitet die Wissenschaft nicht wirklich durch numerische Vorhersagen voran, sondern durch Modelle (mental, mathematisch), die uns weit über Zahlen hinausblicken lassen.
quelle
Statistisches Lernen (AKA Machine Learning) hat seinen Ursprung in der Suche nach Software durch "Lernen aus Beispielen". Es gibt viele Aufgaben, die Computer ausführen sollen (z. B. Computer Vision, Spracherkennung, Robotersteuerung), die schwer zu programmieren sind, für die es einfach ist, Schulungsbeispiele bereitzustellen. Die Forschungsgemeinschaft für maschinelles Lernen / statistisches Lernen entwickelte Algorithmen, um Funktionen aus diesen Beispielen zu lernen. Die Verlustfunktion hing typischerweise mit der Leistungsaufgabe (Sehen, Spracherkennung) zusammen. Und natürlich hatten wir keinen Grund zu der Annahme, dass diesen Aufgaben ein einfaches "Modell" zugrunde liegt (da wir sonst dieses einfache Programm selbst programmiert hätten). Die ganze Idee, statistische Schlussfolgerungen zu ziehen, ergab daher keinen Sinn. Das Ziel ist die Vorhersagegenauigkeit und sonst nichts.
Im Laufe der Zeit begannen verschiedene Kräfte, maschinell lernende Menschen anzutreiben, um mehr über Statistiken zu erfahren. Eines war die Notwendigkeit, Hintergrundwissen und andere Einschränkungen in den Lernprozess einzubeziehen. Dies veranlasste die Menschen, generative probabilistische Modelle in Betracht zu ziehen, da dies die Einbeziehung von Vorwissen über die Struktur des Modells und über Modellparameter und -strukturen erleichtert. Dies führte das Gebiet dazu, die reiche statistische Literatur auf diesem Gebiet zu entdecken. Eine weitere Kraft war die Entdeckung des Phänomens der Überanpassung. Dies führte dazu, dass die ML-Community etwas über Kreuzvalidierung und Regularisierung lernte und erneut die umfangreiche statistische Literatur zu diesem Thema entdeckte.
Der Schwerpunkt der maschinellen Lernarbeit liegt jedoch darauf, ein System zu erstellen, das eine bestimmte Leistung aufweist, anstatt Rückschlüsse auf einen unbekannten Prozess zu ziehen. Dies ist der grundlegende Unterschied zwischen ML und Statistik.
quelle
Idealerweise sollte man sich mit Statistik und maschinellem Lernen gründlich auskennen, bevor man versucht, seine Frage zu beantworten. Ich bin ein absoluter Neuling bei ML, also verzeihen Sie mir, wenn das, was ich sage, naiv ist.
Ich habe nur begrenzte Erfahrung mit SVMs und Regressionsbäumen. Was mir aus der Sicht der Statistik als ML-Mangel auffällt, ist ein gut entwickeltes Inferenzkonzept.
Die Inferenz in ML scheint fast ausschließlich auf die Vorhersagegenauigkeit zurückzuführen zu sein, wie sie beispielsweise durch einen mittleren Klassifizierungsfehler (MCE) oder eine ausgeglichene Fehlerrate (BER) oder dergleichen gemessen wird. ML hat die sehr gute Angewohnheit, Daten zufällig (normalerweise 2: 1) in einen Trainingssatz und einen Testsatz zu unterteilen. Die Modelle werden mit dem Trainingsset fit und die Leistung (MCE, BER usw.) wird mit dem Testset bewertet. Dies ist eine hervorragende Praxis und hält nur langsam Einzug in die allgemeinen Statistiken.
ML macht auch starken Gebrauch von Resampling-Methoden (insbesondere Kreuzvalidierung), deren Ursprung in der Statistik zu liegen scheint.
ML scheint jedoch ein vollständig entwickeltes Inferenzkonzept zu fehlen - jenseits der Vorhersagegenauigkeit. Dies hat zwei Ergebnisse.
1) Es scheint kein Verständnis dafür zu geben, dass eine Vorhersage (Parameterschätzung usw.) einem zufälligen Fehler und möglicherweise einem systemmatischen Fehler (Bias) unterliegt. Statistiker werden akzeptieren, dass dies ein unvermeidlicher Teil der Vorhersage ist, und versuchen, den Fehler abzuschätzen. Mit statistischen Methoden wird versucht, eine Schätzung zu finden, die minimale Abweichungen und zufällige Fehler aufweist. Ihre Techniken werden normalerweise von einem Modell des Datenprozesses gesteuert, jedoch nicht immer (z. B. Bootstrap).
2) In ML scheint es kein tiefes Verständnis für die Grenzen der Anwendung eines Modells auf neue Daten für eine neue Stichprobe aus derselben Grundgesamtheit zu geben (trotz meiner Ausführungen zum Ansatz für Trainings-Test-Datensätze). Verschiedene statistische Techniken, darunter Kreuzvalidierung und Strafbegriffe für wahrscheinlichkeitsbasierte Methoden, leiten die Statistiker in der Abwägung zwischen Sparsamkeit und Modellkomplexität. Solche Richtlinien in ML scheinen eher ad hoc zu sein.
Ich habe mehrere Artikel in ML gesehen, in denen die Kreuzvalidierung verwendet wird, um die Anpassung vieler Modelle an einen Trainingsdatensatz zu optimieren - was mit zunehmender Komplexität des Modells eine immer bessere Anpassung ergibt. Es scheint wenig Verständnis dafür zu haben, dass die winzigen Genauigkeitsgewinne die zusätzliche Komplexität nicht wert sind und dies natürlich zu einer Überanpassung führt. Anschließend werden alle diese optimierten Modelle auf das Test-Set angewendet, um die prädiktive Leistung zu überprüfen und eine Überanpassung zu verhindern. Zwei Dinge wurden vergessen (oben). Die Vorhersageleistung wird eine stochastische Komponente haben. Zweitens führen mehrere Tests gegen einen Testsatz erneut zu einer Überanpassung. Das "beste" Modell wird vom ML-Praktiker ohne volle Wertschätzung ausgewählt, die er / sie aus einer Realisierung vieler möglicher Ergebnisse dieses Experiments ausgewählt hat.
Beliebige meine 2 Cent wert. Wir haben viel voneinander zu lernen.
quelle
Diese Frage kann auch auf die sogenannte Super-Kultur der Datenwissenschaft im Jahr 2015 ausgedehnt werden. David Donoho arbeitet an 50 Jahren Datenwissenschaft , in denen er sich mit unterschiedlichen Gesichtspunkten aus Statistik und Informatik (einschließlich maschinellem Lernen) auseinandersetzt, zum Beispiel mit direkten Standpunkten (von verschiedenen Personen) so, dass:
und mit historischen, philosophischen Überlegungen sortiert, zum Beispiel:
Dieser Aufsatz hat viele Antworten und Beiträge zur Debatte hervorgebracht.
quelle
Ich weiß nicht wirklich, was der konzeptuelle / historische Unterschied zwischen maschinellem Lernen und Statistik ist, aber ich bin sicher, dass es nicht so offensichtlich ist ... und ich bin nicht wirklich daran interessiert zu wissen, ob ich Maschinenlerner oder Statistiker bin, denke ich 10 Jahre nach Breimans Zeitung sind viele Leute beide ...
Auf jeden Fall fand ich die Frage nach der Vorhersagegenauigkeit von Modellen interessant . Wir müssen uns daran erinnern, dass es nicht immer möglich ist, die Genauigkeit eines Modells zu messen, und wir nehmen meist implizit eine Modellierung vor, wenn wir Fehler messen.
Beispielsweise ist der mittlere absolute Fehler in der Zeitreihenvorhersage ein Mittelwert über die Zeit und misst die Leistung eines Verfahrens zur Vorhersage des Medians unter der Annahme, dass die Leistung in gewissem Sinne stationär ist und eine ergodische Eigenschaft aufweist. Wenn Sie (aus irgendeinem Grund) die Durchschnittstemperatur auf der Erde für die nächsten 50 Jahre vorhersagen müssen und Ihre Modellierung in den letzten 50 Jahren gute Ergebnisse erzielt hat, bedeutet dies nicht, dass ...
Im Allgemeinen (wenn ich mich recht erinnere, heißt es kein kostenloses Mittagessen) kann man nichts ohne Modellierung tun ... Außerdem denke ich, dass die Statistik versucht, eine Antwort auf die Frage zu finden: "Ist etwas Bedeutendes oder nicht Bedeutendes". Dies ist eine sehr wichtige Frage in der Wissenschaft und kann nicht durch einen Lernprozess beantwortet werden. John Tukey (war er ein Statistiker?):
Hoffe das hilft !
quelle
Es ist klar, dass die beiden Bereiche mit ähnlichen, aber unterschiedlichen Problemen konfrontiert sind, und zwar auf ähnliche, aber nicht identische Weise mit analogen, aber nicht identischen Konzepten. Sie arbeiten in verschiedenen Abteilungen, Zeitschriften und Konferenzen.
Als ich Cressie und Reads Power Divergence Statistic las, schnappte alles für mich zusammen. Ihre Formel verallgemeinert häufig verwendete Teststatistiken in eine, die um einen Exponenten, Lambda, variiert. Es gibt zwei Sonderfälle, Lambda = 0 und Lambda = 1.
Informatik und Statistik gehören zu einem Kontinuum (das vermutlich auch andere Punkte umfassen könnte). Bei einem Lambda-Wert erhalten Sie Statistiken, die häufig in Statistikkreisen verwendet werden, und bei einem anderen Wert Statistiken, die häufig in Comp-Sci-Kreisen verwendet werden.
Statistiken
Computerwissenschaften:
quelle
Sie führen einmal einen ausgefallenen Computeralgorithmus aus - und Sie erhalten ein CS-Konferenzpräsentations- / Statistikpapier (wow, was für eine schnelle Konvergenz!). Sie kommerzialisieren es und führen es 1 Million Mal aus - und Sie sind pleite (autsch, warum erhalte ich die ganze Zeit nutzlose und nicht reproduzierbare Ergebnisse ???), es sei denn, Sie wissen, wie man Wahrscheinlichkeit und Statistik einsetzt, um die Eigenschaften des Algorithmus zu verallgemeinern.
quelle
Es gibt ein Anwendungsgebiet der Statistik, in dem die Fokussierung auf das Datengenerierungsmodell sehr sinnvoll ist. In geplanten Experimenten, z. B. Tierstudien, klinischen Studien, industriellen DOEs, können Statistiker das Modell der Datengenerierung mitbestimmen. ML neigt dazu, nicht viel Zeit mit diesem sehr wichtigen Problem zu verbringen, da sich ML normalerweise auf ein weiteres sehr wichtiges Problem der Vorhersage konzentriert, das auf „großen“ Beobachtungsdaten basiert. Dies bedeutet nicht, dass ML nicht auf Experimente mit „großem“ Design angewendet werden kann. Es ist jedoch wichtig zu berücksichtigen, dass die Statistik über besondere Fachkenntnisse zu Problemen mit „kleinen“ Daten verfügt, die sich aus Experimenten mit begrenzten Ressourcen ergeben.
Letztendlich denke ich, dass wir uns alle darauf einigen können, das zu verwenden, was am besten funktioniert, um das vorliegende Problem zu lösen. Zum Beispiel können wir ein entworfenes Experiment haben, das sehr breite Daten mit dem Ziel der Vorhersage erzeugt. Statistische Entwurfsprinzipien sind hier sehr nützlich, und ML-Methoden könnten nützlich sein, um den Prädiktor zu erstellen.
quelle
Ich denke, maschinelles Lernen muss ein Unterzweig der Statistik sein, genau wie aus meiner Sicht die Chemie ein Unterzweig der Physik sein muss.
Ich denke, der physikalisch inspirierte Blick in die Chemie ist ziemlich solide (denke ich). Ich glaube nicht, dass es eine chemische Reaktion gibt, deren Äquivalent physikalisch nicht bekannt ist. Ich denke, die Physik hat einen tollen Job gemacht, indem sie alles erklärt, was wir auf chemischer Ebene sehen können. Jetzt scheint die Herausforderung der Physiker darin zu bestehen, die winzigen Geheimnisse auf Quantenebene unter extremen Bedingungen zu erklären, die nicht beobachtbar sind.
Nun zurück zum maschinellen Lernen. Ich denke , es ist auch sollte ein Unterzweig unter Statistik sein (nur wie die Chemie ein Teilgebiet der Physik ist).
Aber es scheint mir, dass entweder der aktuelle Stand des maschinellen Lernens oder die Statistik nicht ausgereift genug sind, um dies perfekt zu realisieren. Aber auf lange Sicht denke ich, dass man ein Unterzweig des anderen werden muss. Ich denke, es ist ML, das unter Statistiken gerät.
Ich persönlich denke, dass "Lernen" und "Analysieren von Stichproben" zum Schätzen / Ableiten von Funktionen oder Vorhersagen im Wesentlichen eine Frage der Statistik sind.
quelle
Aus dem Coursera-Kurs "Data Science in real life" von Brian Caffo
Maschinelles lernen
Traditionelle statistische Analyse
quelle
Als Informatiker bin ich immer fasziniert von statistischen Ansätzen. Für mich sieht es oft so aus, als wären die in der statistischen Analyse verwendeten statistischen Modelle für die Daten in vielen Situationen viel zu komplex!
Beispielsweise besteht ein enger Zusammenhang zwischen Datenkomprimierung und Statistik. Grundsätzlich braucht man ein gutes statistisches Modell, das die Daten gut vorhersagen kann und dies bringt eine sehr gute Komprimierung der Daten. In der Informatik sind bei der Komprimierung der Daten immer die Komplexität des statistischen Modells und die Genauigkeit der Vorhersage von großer Bedeutung. Niemand möchte NIEMALS eine Datendatei (mit Ton- oder Bilddaten oder Videodaten) haben, die nach der Komprimierung größer wird!
Ich finde, dass es in der Informatik dynamischere Dinge in Bezug auf Statistiken gibt, wie zum Beispiel die minimale Beschreibungslänge und die normalisierte maximale Wahrscheinlichkeit .
quelle