Die zwei Kulturen: Statistik vs. maschinelles Lernen?

420

Letztes Jahr las ich einen Blogbeitrag von Brendan O'Connor mit dem Titel "Statistik vs. Maschinelles Lernen, Kampf!" das besprach einige der Unterschiede zwischen den zwei Feldern. Andrew Gelman reagierte positiv darauf :

Simon Blomberg:

Aus dem Glückspaket von R: Um es provokativ auszudrücken: „Maschinelles Lernen ist Statistik minus Überprüfung von Modellen und Annahmen“. - Brian D. Ripley (über den Unterschied zwischen maschinellem Lernen und Statistik) useR! 2004, Wien (Mai 2004) :-) Weihnachtsgrüße!

Andrew Gelman:

In diesem Fall sollten wir vielleicht häufiger die Überprüfung von Modellen und Annahmen aufgeben. Dann könnten wir vielleicht einige der Probleme lösen, die die maschinell lernenden Leute lösen können, aber wir können nicht!

Es gab auch das Paper "Statistical Modeling: The Two Cultures" von Leo Breiman aus dem Jahr 2001, in dem argumentiert wurde, dass Statistiker zu stark auf Datenmodellierung setzen und dass maschinelle Lerntechniken Fortschritte erzielen, indem sie sich stattdessen auf die Vorhersagegenauigkeit verlassen von Modellen verlassen.

Hat sich das Statistikfeld in den letzten zehn Jahren aufgrund dieser Kritik geändert? Existieren die beiden Kulturen noch oder wurde die Statistik erweitert, um maschinelle Lerntechniken wie neuronale Netze und Support-Vektor-Maschinen zu berücksichtigen?

Shane
quelle
21
Danke @robin; machte CW. Obwohl ich das nicht ganz als "argumentativ" betrachte; Es gibt zwei Bereiche, die sich gegenseitig informiert haben (das ist eine Tatsache), und die Frage ist, wie weit sie sich in den letzten zehn Jahren gemeinsam entwickelt haben.
Shane
16
Fügen Sie eine dritte Kultur hinzu: Data Mining . Maschinell Lernende und Data Miner sprechen ganz unterschiedliche Sprachen. Normalerweise verstehen die maschinellen Lernenden nicht einmal, was beim Data Mining anders ist. Für sie ist es nur unbeaufsichtigtes Lernen; Sie ignorieren die Datenverwaltungsaspekte und wenden das Schlagwort- Data-Mining auch auf maschinelles Lernen an, was die Verwirrung noch verstärkt.
Anony-Mousse
4
Es gibt eine ähnliche Frage zu Data Mining und Statistiken
naught101
2
Eine interessante Diskussion in Wassermans Blog .
2
Es scheint mir, dass die Verbindung zwischen ML und Statistik nicht genug betont wird. Viele CS-Studenten ignorieren es, während ihrer Grundausbildung etwas über Statistik zu lernen, weil sie die entscheidende Bedeutung einer soliden Statistik, die auf der Durchführung von ML-Aufgaben beruht, nicht verstehen. Vielleicht würden sogar viele CS-Abteilungen auf der ganzen Welt nur langsam handeln. Es würde sich als sehr kostspieliger Fehler herausstellen, und ich hoffe, dass das Bewusstsein für die Bedeutung von Statistikkenntnissen in CS gestärkt wird. Grundsätzlich ML = Statistik in vielerlei Hinsicht.
xji

Antworten:

195

Ich denke, die Antwort auf Ihre erste Frage ist einfach zu bejahen. Nehmen Sie eine Ausgabe von Statistical Science, JASA, Annals of Statistics der letzten 10 Jahre und Sie werden Artikel über Boosting, SVM und neuronale Netzwerke finden, obwohl dieser Bereich jetzt weniger aktiv ist. Statistiker haben die Arbeit von Valiant und Vapnik übernommen, aber auf der anderen Seite haben Informatiker die Arbeit von Donoho und Talagrand aufgegriffen. Ich denke, es gibt keinen großen Unterschied mehr in Umfang und Methoden. Ich habe Breimans Argument nie gekauft, dass CS-Leute nur daran interessiert waren, Verluste mit irgendwelchen Mitteln zu minimieren. Diese Ansicht wurde stark von seiner Teilnahme an Konferenzen über neuronale Netze und seiner Beratungstätigkeit beeinflusst. Aber PAC, SVMs und Boosting haben alle eine solide Grundlage. Und heute, im Gegensatz zu 2001, beschäftigt sich Statistics mehr mit Eigenschaften endlicher Stichproben,

Aber ich denke, dass es noch drei wichtige Unterschiede gibt, die nicht bald verschwinden.

  1. Die Veröffentlichungen zur Methodologischen Statistik sind immer noch überwiegend formal und deduktiv, wohingegen Forscher des maschinellen Lernens neue Ansätze eher tolerieren, auch wenn ihnen kein Beweis beigefügt ist.
  2. Die ML-Community teilt in erster Linie neue Ergebnisse und Veröffentlichungen in Konferenzen und verwandten Verfahren, während Statistiker Zeitschriftenartikel verwenden. Dies verlangsamt den Fortschritt in der Statistik und der Identifizierung von Starforschern. John Langford hat einen schönen Beitrag zu diesem Thema verfasst.
  3. Die Statistik deckt nach wie vor Bereiche ab, die für ML (vorerst) von geringer Bedeutung sind, z. B. Erhebungsdesign, Stichprobenerhebung, Industriestatistik usw.
gappy
quelle
20
Guter Eintrag! Beachten Sie, dass Vapnick in Statistik promoviert hat. Ich bin nicht sicher, ob es eine Menge Informatiker gibt, die den Namen Talagrand kennen, und ich bin sicher, dass 0,01% von ihnen auswendig können, was Talagrand bewirkt :) können Sie? Ich kenne die Arbeit von Valiant nicht :)
Robin Girard
Ich sehe die unterschiedlichen Antworten, wenn es um akademische Forschung und Anwendungen geht. Ich denke, dass Sie im Kontext des ersteren geantwortet haben. Bei Anwendungen liegt der größte Unterschied meiner Meinung nach in der Art und Weise, wie sich die Felder ausdehnen. ML über Data Science Channel akzeptiert alle, die buchstäblich codieren können. In der Statistik benötigen Sie noch einen Abschluss in Statistik oder in der Nähe von Feldern, um in die Arbeitswelt einzusteigen.
Aksakal,
1
Sowohl die Stichprobenerhebung als auch die Industriestatistik sind Milliarden-Dollar-Felder (die Abteilung für Erhebungsmethoden der American Statistical Association ist nach Biometrie und Beratung die drittgrößte, und letztere umfasst auch eine große Anzahl von Industriestatistiker. Es gibt eine separate Abteilung für Qualität.) , und es gibt noch ein separates Six-Sigma-Zeug und andere Qualitätskontrollmethoden (nicht alle vollständig in Statistik). Beide haben einen kritischen Mangel an Statistikern, da die derzeitige Belegschaft von Baby-Boomern, die in den 1960er Jahren in diesen Gebieten tätig wurden, in den Ruhestand tritt.
StasK
4
Während einige Leute ihre Jobs bekommen, indem sie auf Konferenzen auf dem roten Teppich posieren, finden andere ihre Jobs, indem sie die Methoden in der realen Welt anwenden. Letztere Leute haben nicht dass viel Interesse an den Sternen jeglicher Art identifiziert; Sie identifizieren eher die Methoden, die funktionieren, obwohl Sie in vielen Fällen nach einigen Jahren in einem bestimmten Bereich immer wieder zu denselben Namen geführt werden.
StasK
Warum würde die Probenahme ML nicht interessieren? Ist das nicht dem Problem ähnlich, die richtigen Trainingsdaten in ML zu haben?
Gerrit
169

Der größte Unterschied, den ich zwischen den Communities sehe, besteht darin, dass die Statistik die Inferenz betont, während das maschinelle Lernen die Vorhersage betont. Wenn Sie Statistiken erstellen , möchten Sie den Prozess ableiten , mit dem Sie Daten generiert haben. Wenn Sie maschinelles Lernen betreiben , möchten Sie wissen, wie Sie vorhersagen können , wie zukünftige Daten mit einer Variablen aussehen werden.

Natürlich überlappen sich die beiden. Wenn Sie wissen, wie die Daten generiert wurden, erhalten Sie einige Hinweise, wie ein guter Prädiktor aussehen könnte. Ein Beispiel für den Unterschied ist jedoch, dass sich das maschinelle Lernen seit seinen Anfängen mit dem Problem p >> n (mehr Funktionen / Variablen als Trainingsbeispiele) befasst, während die Statistik dieses Problem gerade ernst zu nehmen beginnt. Warum? Weil Sie bei p >> n immer noch gute Vorhersagen treffen können, aber keine guten Rückschlüsse darauf ziehen können, welche Variablen tatsächlich wichtig sind und warum.

dsimcha
quelle
13
Könnte dies (zu) vereinfacht werden, als dass zwischen generativen und diskriminativen Modellen unterschieden wird?
Wayne
5
"Man sollte das [Klassifikations-] Problem direkt lösen und niemals ein allgemeineres Problem als Zwischenschritt ..." - Vapnik
Wayne
3
@mbq: Ich wollte nicht implizieren, dass keine Schlussfolgerung gezogen werden kann, nur, dass es nicht das Hauptziel ist und dass in der Regel p >> n in ML, was es sehr viel schwieriger macht.
dsimcha
2
Ich stimme dieser Ansicht überhaupt nicht zu. Es sieht falsch aus. Dinge wie wiederkehrende neuronale Netze versuchen ebenfalls, Prozesse abzuleiten und sogar fortzufahren und neue Sequenzen zu erzeugen.
Höhlenmensch
2
Was ist mit der Robotik? Die probabilistische Robotik konzentriert sich hauptsächlich auf Inferenz und ist in Anwendungen ziemlich dominant. Aber immer noch ein anderes "Aroma" als Statistik (und mehr Engineering im Vergleich zu Maschine / Lernen; dh Echtzeitanalyse / -steuerung)
GeoMatt22
134

Bayesian: "Hallo Maschinenschüler!"

Frequentist: "Hallo, Maschinenschüler!"

Maschinelles Lernen: "Ich habe gehört, ihr seid gut in Sachen. Hier sind einige Daten."

F: "Ja, schreiben wir ein Modell auf und berechnen dann die MLE."

B: "Hey, F, das hast du mir gestern nicht gesagt! Ich hatte ein paar univariate Daten und wollte die Varianz schätzen, und ich habe die MLE berechnet. Dann hast du dich auf mich gestürzt und mir gesagt, ich soll durch dividieren statt vonnn1n . "

F: "Ah ja, danke, dass Sie mich daran erinnert haben. Ich denke oft, dass ich das MLE für alles verwenden soll, aber ich interessiere mich für unvoreingenommene Schätzer und so weiter."

ML: "Ähm, worum geht es in dieser Philosophie? Hilft es mir?"

F: "OK, ein Schätzer ist eine Black Box, Sie geben Daten ein und es werden Zahlen ausgegeben. Uns Vielfachen ist es egal, wie die Box konstruiert wurde, nach welchen Prinzipien sie entworfen wurde. Zum Beispiel I Ich weiß nicht, wie ich ableiten soll÷(n1) -Regel . "

ML: Also, was kümmert dich das?

F: Bewertung

ML: "Ich mag den Klang davon."

F: "Eine Black Box ist eine Black Box. Wenn jemand behauptet, ein bestimmter Schätzer sei ein unvoreingenommener Schätzer für , dann versuchen wir viele Werte von , erzeugen aus jedem viele Stichproben auf der Grundlage eines angenommenen Modells und drücken sie durch der Schätzer und den Durchschnitt geschätzt . Wenn wir , dass die erwartete Schätzung entspricht den wahren Wert, für alle Werte unter Beweis stellen können, dann sagen wir , es ist unparteiisch.“θ θθθθ

ML: "Klingt großartig! Es klingt, als wären Frequentisten pragmatische Menschen. Sie beurteilen jede Black Box anhand ihrer Ergebnisse. Die Bewertung ist der Schlüssel."

F: "In der Tat! Ich verstehe, dass ihr einen ähnlichen Ansatz habt. Quervalidierung oder so? Aber das klingt für mich chaotisch."

ML: "Chaotisch?"

F: "Die Idee, Ihren Schätzer an realen Daten zu testen, erscheint mir gefährlich. Die empirischen Daten, die Sie verwenden, können allerlei Probleme mit sich bringen und sich möglicherweise nicht nach dem Modell verhalten, das wir für die Bewertung vereinbart haben."

ML: „Was ich dachte , Sie sagen , Sie einige Ergebnisse bewiesen würden die Ihr Schätzer immer unvoreingenommen sein würde, für alle? .“θ

F: "Ja. Obwohl Ihre Methode möglicherweise mit einem Datensatz (dem Datensatz mit Zug- und Testdaten) funktioniert hat, den Sie in Ihrer Bewertung verwendet haben, kann ich nachweisen, dass meiner immer funktioniert."

ML: "Für alle Datensätze?"

F: Nein.

ML: "Meine Methode wurde für einen Datensatz kreuzvalidiert. Sie haben Ihre Methode noch nicht an einem echten Datensatz getestet?"

F: "Das stimmt."

ML: "Dann bin ich an der Spitze! Meine Methode ist besser als Ihre. Sie sagt in 90% der Fälle Krebs voraus. Ihr 'Beweis' ist nur gültig, wenn sich der gesamte Datensatz gemäß dem von Ihnen angenommenen Modell verhält."

F: "Emm, ja, ich nehme an."

ML: "Und dieses Intervall hat eine Abdeckung von 95% . Aber ich sollte mich nicht wundern, wenn es nur den korrekten Wert von 20% der Zeit enthält?"θ

F: "Das stimmt. Wenn die Daten nicht wirklich normal sind (oder was auch immer), ist mein Beweis nutzlos."

ML: Also ist meine Bewertung vertrauenswürdiger und umfassender? Sie funktioniert nur mit den Datensätzen, die ich bisher ausprobiert habe, aber zumindest mit echten Datensätzen, Warzen und allem "und" gründlich "und dass Sie an Model-Checks und so interessiert waren."

B: (wirft ein) "Hey Leute, tut mir leid, dass ich unterbreche. Ich würde gerne eingreifen und die Dinge ausbalancieren, um vielleicht ein paar andere Probleme zu demonstrieren, aber ich liebe es wirklich zu beobachten, wie sich mein Stammkollege windet."

F: "Woah!"

ML: Okay, Kinder. Es ging nur um Evaluierung. Ein Schätzer ist eine Black Box. Daten gehen ein, Daten kommen heraus. Wir genehmigen oder missbilligen einen Schätzer basierend auf der Leistung, die er bei der Evaluierung erbringt. Es ist uns egal über das ‚Rezept 'oder die‚ Gestaltungsprinzipien', die verwendet werden. "

F: "Ja. Aber wir haben sehr unterschiedliche Vorstellungen darüber, welche Bewertungen wichtig sind. ML wird echte Daten trainieren und testen. Ich werde eine allgemeinere Bewertung durchführen (da es sich um einen allgemein anwendbaren Beweis handelt) und auch eingeschränkter (weil ich nicht weiß, ob Ihr Datensatz tatsächlich aus den Modellannahmen stammt, die ich beim Entwerfen meiner Bewertung verwende.) "

ML: "Welche Bewertung verwenden Sie, B?"

F: (wirft ein) "Hey. Bring mich nicht zum Lachen. Er bewertet nichts. Er benutzt nur seine subjektiven Überzeugungen und rennt damit. Oder so."

B: "Das ist die übliche Interpretation. Aber es ist auch möglich, den Bayesianismus durch die bevorzugten Bewertungen zu definieren. Dann können wir die Idee verwenden, dass es niemanden interessiert, was sich in der Black Box befindet, wir kümmern uns nur um verschiedene Arten der Bewertung."

B fährt fort: "Klassisches Beispiel: Medizinischer Test. Das Ergebnis des Bluttests ist entweder positiv oder negativ. Ein Frequentist wird sich für die gesunden Menschen interessieren, welcher Anteil ein negatives Ergebnis erzielt. Und ebenso, welcher Anteil der Kranken Der Frequentist berechnet diese Werte für jede in Betracht gezogene Blutuntersuchungsmethode und empfiehlt dann, den Test zu verwenden, bei dem das beste Ergebnis erzielt wird. "

F: "Genau. Was willst du mehr?"

B: Was ist mit den Personen, die ein positives Testergebnis erzielt haben? Sie werden wissen wollen, wie viele von denen, die ein positives Ergebnis erzielen, krank werden. und 'von denen, die ein negatives Ergebnis erzielen, wie viele sind gesund?' "

ML: "Ah ja, das scheint ein besseres Paar von Fragen zu sein."

F: "HIER!"

B: "Jetzt geht es wieder los. Ihm gefällt nicht, wohin das führt."

ML: "Es geht um 'Vorgesetzte', nicht wahr?"

F: "BÖSE".

B: "Wie auch immer, ja, Sie haben Recht, ML. Um den Anteil der Kranken mit positivem Ergebnis zu berechnen, müssen Sie eines von zwei Dingen tun. Eine Option besteht darin, die Tests an vielen Menschen durchzuführen und nur das zu beobachten relevante Proportionen. Wie viele dieser Menschen sterben zum Beispiel an der Krankheit. "

ML: "Das klingt nach dem, was ich tue. Benutze Training und Test."

B: "Aber Sie können diese Zahlen im Voraus berechnen, wenn Sie bereit sind, eine Annahme über die Krankheitsrate in der Bevölkerung zu treffen. Der Frequentist führt seine Berechnungen auch im Voraus durch, ohne jedoch diese Krankheitsrate auf Bevölkerungsniveau zu verwenden."

F: "MEHR UNBEGRÜNDETE ANNAHMEN."

B: Oh, halt die Klappe. Früher wurden Sie herausgefunden. ML stellte fest, dass Sie ebenso unbegründete Annahmen mögen wie jeder andere. Ihre 'nachgewiesenen' Wahrscheinlichkeiten werden sich in der realen Welt nicht stapeln, wenn nicht alle Ihre Annahmen stimmen. Warum ist meine vorherige Annahme so unterschiedlich? Sie nennen mich verrückt, tun aber so, als ob Ihre Annahmen die Arbeit einer konservativen, soliden, annahmenfreien Analyse sind. "

B (fährt fort): "Wie auch immer, ML, wie ich schon sagte. Bayesianer mögen eine andere Art der Auswertung. Wir sind mehr daran interessiert, die beobachteten Daten zu konditionieren und die Genauigkeit unseres Schätzers entsprechend zu berechnen. Wir können diese Auswertung nicht durchführen ohne Verwendung von durchführen a prior. Aber das Interessante ist, dass wir, sobald wir uns für diese Form der Bewertung entschieden haben und uns für unseren Prior entschieden haben, ein automatisches „Rezept" haben, um einen geeigneten Schätzer zu erstellen. Der Frequentist hat kein solches Rezept. Wenn er eines will "Unparteiischer Schätzer für ein komplexes Modell, er hat keine automatisierte Möglichkeit, einen geeigneten Schätzer zu erstellen."

ML: "Und Sie? Sie können automatisch einen Schätzer erstellen?"

B: "Ja. Ich habe keine automatische Möglichkeit, einen unvoreingenommenen Schätzer zu erstellen, da ich der Meinung bin, dass eine Verzerrung eine schlechte Möglichkeit ist, einen Schätzer zu bewerten. Angesichts der von den Daten abhängigen Schätzung, die ich mag, und der vorherigen kann den Prior und die Wahrscheinlichkeit verbinden, mir den Schätzer zu geben. "

ML: Wie auch immer, lassen Sie uns zusammenfassen. Wir haben alle verschiedene Möglichkeiten, unsere Methoden zu bewerten, und wir werden uns wahrscheinlich nie darauf einigen, welche Methoden die besten sind.

B: Nun, das ist nicht fair. Wir könnten sie mischen und aufeinander abstimmen. Wenn einer von uns gut etikettierte Trainingsdaten hat, sollten wir sie wahrscheinlich testen. Und im Allgemeinen sollten wir alle so viele Annahmen wie möglich testen "Beweise könnten auch Spaß machen und die Leistung unter einem vermuteten Modell der Datenerzeugung vorhersagen."

F: "Ja Leute. Lasst uns pragmatisch über die Bewertung sein. Und tatsächlich werde ich aufhören, von Eigenschaften mit unendlichen Stichproben zu besessen. Ich habe die Wissenschaftler gebeten, mir eine unendliche Stichprobe zu geben, aber sie haben es immer noch nicht getan. Es ist Zeit für mich, mich wieder auf endliche Proben zu konzentrieren. "

ML: "Also, wir haben nur eine letzte Frage. Wir haben viel darüber gestritten, wie wir unsere Methoden bewerten , aber wie wir unsere Methoden erstellen ."

B: Ah. Wie ich bereits sagte, haben wir Bayesianer die leistungsstärkere allgemeine Methode. Es mag kompliziert sein, aber wir können immer einen Algorithmus schreiben (vielleicht eine naive Form von MCMC), der von unserem posterioren abgetastet wird. "

F (wirft ein): "Aber es könnte Voreingenommenheit haben."

B: Könnten auch Ihre Methoden. Muss ich Sie daran erinnern, dass die MLE oft voreingenommen ist? Manchmal haben Sie große Schwierigkeiten, unvoreingenommene Schätzer zu finden, und selbst wenn Sie einen dummen Schätzer haben (für ein wirklich komplexes Modell), der sagt, dass Varianz ist negativ. Und Sie nennen das unvoreingenommen. Unvoreingenommen, ja. Aber nützlich, nein! "

ML: "Okay, Leute. Du hast dich wieder geärgert. Lass mich dir eine Frage stellen, F. Hast du jemals die Abweichung von deiner Methode mit der Abweichung von Bs Methode verglichen, als du beide an demselben Problem gearbeitet hast?"

F: "Ja. Tatsächlich gebe ich es nicht gern zu, aber der Ansatz von B hat manchmal eine geringere Voreingenommenheit und MSE als mein Schätzer!"

ML: "Die Lehre hier ist, dass keiner von uns das Monopol hat, einen Schätzer zu erstellen, der Eigenschaften hat, die wir haben wollen, obwohl wir uns ein wenig nicht einig sind."

B: "Ja, wir sollten die Arbeit des anderen ein bisschen mehr lesen. Wir können uns gegenseitig Inspirationen für Schätzer geben. Wir könnten feststellen, dass die Schätzer des anderen bei unseren eigenen Problemen großartig funktionieren."

F: "Und ich sollte aufhören, von Voreingenommenheit besessen zu sein. Ein unvoreingenommener Schätzer könnte eine lächerliche Varianz aufweisen. Ich nehme an, wir alle müssen die Verantwortung für die Entscheidungen übernehmen, die wir bei der Bewertung treffen und für die Eigenschaften, die wir in unseren Schätzern sehen möchten. Wir können nicht hinter einer Philosophie zurückbleiben. Versuchen Sie alle Bewertungen, die Sie können. Und ich werde weiterhin einen Blick auf die Bayes'sche Literatur werfen, um neue Ideen für Schätzer zu erhalten! "

B: "Tatsächlich wissen viele Leute nicht wirklich, was ihre eigene Philosophie ist. Ich bin mir selbst nicht sicher. Wenn ich ein Bayesianisches Rezept verwende und dann ein nettes theoretisches Ergebnis beweise, heißt das nicht, dass ich Ich bin ein Frequentist? Ein Frequentist kümmert sich um die oben genannten Leistungsnachweise, er kümmert sich nicht um Rezepte. Und wenn ich stattdessen (oder auch) ein paar Tests mache, heißt das, dass ich ein Maschinenlerner bin? "

ML: "Dann scheinen wir uns alle ziemlich ähnlich zu sein."

Aaron McDaid
quelle
8
Für Leser, die diese Antwort bis zum Ende lesen, würde ich vorschlagen, eine kurze Nachricht zum Mitnehmen hinzuzufügen (und, falls zutreffend, eine entsprechende Angabe zu machen).
Chl
Mit -2 Stimmen denke ich, dass es nicht viel gibt, was ich tun kann, um es zu retten :) Ich denke, dass das Ende, in dem sie sich alle einig sind und zugeben können, dass sie sich gegenseitig Methoden anwenden können, ohne sich gegenseitig um die Philosophie zu kümmern, ein "Nachricht zum Mitnehmen".
Aaron McDaid
10
Kein Zitieren erforderlich. Ich habe es gerade selbst erfunden. Es ist wahrscheinlich nicht sehr gut informiert, es basiert auf meinen eigenen (falschen) Interpretationen von Argumenten, die ich im Laufe der Jahre mit einer kleinen Anzahl von Kollegen hatte.
Aaron McDaid
3
Ich habe in der Vergangenheit einen solchen Dialog (allerdings kürzer) gesehen und finde ihn interessant. Ich war auch besorgt über die Abwertungen, daher mein Vorschlag, eine kurze Zusammenfassung an die Spitze zu setzen, um die Leser zu motivieren, den Rest Ihres Beitrags zu lesen.
Chl
3
13/10 würde nochmal streiten
410_Gone
67

In einer solchen Diskussion erinnere ich mich immer an das berühmte Ken Thompson-Zitat

Wenn Sie Zweifel haben, wenden Sie rohe Gewalt an.

In diesem Fall ist maschinelles Lernen eine Rettung, wenn die Annahmen schwer zu fassen sind. oder zumindest ist es viel besser, als sie falsch zu erraten.


quelle
2
Mit den in diesen Jahren erweiterten Rechenkapazitäten und Autoencodierern und den damit verbundenen Techniken ist dies wahrer denn je.
Firebug
Um ein Problem zu lösen, verwenden die Ingenieure Formeln, Techniken und Verfahren, die sie zuvor verwendet haben und von deren Erfolg sie überzeugt sind. Normalerweise nennt man dies die Verwendung von Brute Force oder die Verwendung von Daumenregeln. Neue Formeln, Techniken und prozeduren werden schrittweise angewendet ... Engineering-Aktivitäten sind Gruppenaktivitäten, bei denen Ingenieure, Techniker und Arbeiter zusammenarbeiten. Wenn ein neues Verfahren eingeführt wird, dauert es einige Zeit, um die Techniker und Arbeiter mit diesem Verfahren zu schulen. Modernisierung wird also in einem evolutionären Prozess eingeführt.
b.sahu
64

Was mehr Trennung erzwingt, als es sein sollte, ist das Lexikon jeder Disziplin.

Es gibt viele Fälle, in denen ML einen Begriff verwendet und Statistik einen anderen Begriff verwendet - aber beide beziehen sich auf dasselbe - gut, das würde man erwarten, und es führt zu keiner dauerhaften Verwirrung (z. B. Merkmale / Attribute versus Erwartung) Variablen oder neuronales Netzwerk / MLP versus Projektionsverfolgung).

Viel ärgerlicher ist, dass beide Disziplinen den gleichen Begriff verwenden, um sich auf völlig unterschiedliche Konzepte zu beziehen.

Einige Beispiele:

Kernel-Funktion

In ML werden Kernelfunktionen in Klassifikatoren (z. B. SVM) und natürlich in Kernelmaschinen verwendet. Der Begriff bezieht sich auf eine einfache Funktion ( Cosinus, Sigmoidal, Rbf, Polynom ) zum Abbilden von nicht linear trennbaren Daten auf einen neuen Eingaberaum, sodass die Daten nun in diesem neuen Eingaberaum linear trennbar sind. (im Gegensatz zur Verwendung eines nichtlinearen Modells).

In der Statistik ist eine Kernelfunktion eine Gewichtungsfunktion, die bei der Dichteschätzung verwendet wird, um die Dichtekurve zu glätten.

Regression

In ML werden Vorhersagealgorithmen oder Implementierungen dieser Algorithmen, die Klassenbezeichnungen "Klassifizierer" zurückgeben, (manchmal) als Maschinen bezeichnet - z. B. Support-Vektor-Maschine , Kernel-Maschine . Das Gegenstück zu Maschinen sind Regressoren , die eine Punktzahl (stetige Variable) zurückgeben - z. B. die Unterstützung der Vektorregression .

In seltenen Fällen haben die Algorithmen je nach Modus unterschiedliche Namen. Beispielsweise wird der Begriff MLP verwendet, unabhängig davon, ob eine Klassenbezeichnung oder eine kontinuierliche Variable zurückgegeben wird.

Wenn Sie in Statistik, Regression versuchen, ein Modell basierend auf empirischen Daten zu erstellen, um eine Antwortvariable basierend auf einer oder mehreren erklärenden Variablen oder mehreren Variablen vorherzusagen, führen Sie eine Regressionsanalyse durch. Es spielt keine Rolle, ob die Ausgabe eine kontinuierliche Variable oder eine Klassenbezeichnung ist (z. B. logistische Regression). So bezieht sich beispielsweise die Regression der kleinsten Quadrate auf ein Modell, das einen kontinuierlichen Wert zurückgibt. Andererseits gibt die logistische Regression eine Wahrscheinlichkeitsschätzung zurück, die dann in Klassenbeschriftungen diskretisiert wird.

Vorspannen

In ML ist der Bias- Term im Algorithmus konzeptionell identisch mit dem Intercept- Term, den Statistiker bei der Regressionsmodellierung verwenden.

In der Statistik ist die Verzerrung ein nicht zufälliger Fehler, dh, ein Phänomen hat den gesamten Datensatz in dieselbe Richtung beeinflusst, was wiederum bedeutet, dass diese Art von Fehler nicht durch erneutes Abtasten oder Erhöhen der Stichprobengröße beseitigt werden kann.

doug
quelle
19
In der Statistik ist Verzerrung nicht dasselbe wie Fehler. Fehler sind rein zufällig, Voreingenommenheit nicht. Sie sind voreingenommen, wenn Sie wissen, dass der erwartete Wert Ihrer Schätzung nicht dem wahren Wert entspricht.
Joris Meys
2
(@Joris Oder auch wenn Sie es nicht wissen! Klingt banal, aber es kann ein erhebliches praktisches Problem sein, nur herauszufinden, ob es eine Verzerrung gibt. Wie sicher können Sie allein anhand der Daten sein, dass ein geschätzter Regressionsparameter frei von ausgelassenen Variablen ist Bias?) Es ist ein weit verbreitetes Missverständnis, dass Bias ein Merkmal der Daten und keine Eigenschaft eines Schätzers ist. Ich frage mich, ob es aus nicht-technischer Verwendung wie "diese Umfrage ist voreingenommen!" Statistiker sind auch bei Begriffen wie "Fehler" nicht immer konsistent: Der mittlere quadratische Fehler (eines Schätzers) enthält eine Bias-Quadrat-Komponente, sodass "Fehler" nicht "rein zufällig" ist.
Silverfish
2
Ich denke, der Begriff "Maschine" in SVMs sollte auf den persönlichen Geschmack von Vladimir Vapnic zurückgeführt werden. Heutzutage denke ich nicht, dass es verwendet wird, um einen anderen Klassifikator zu benennen.
Iliasfl
3
E[X^X]
1
[0,1]1
25

Maschinelles Lernen scheint eine pragmatische Grundlage zu haben - eine praktische Beobachtung oder Simulation der Realität. Selbst innerhalb der Statistik kann eine sinnlose "Überprüfung von Modellen und Annahmen" dazu führen, dass nützliche Methoden verworfen werden.

Zum Beispiel wurde vor Jahren das allererste im Handel erhältliche (und funktionierende) Insolvenzmodell, das von den Kreditauskunfteien implementiert wurde, durch ein einfaches altes lineares Regressionsmodell mit dem Ziel eines 0-1-Ergebnisses erstellt. Technisch ist das ein schlechter Ansatz, aber praktisch hat es funktioniert.

Jay Stevens
quelle
4
Es ähnelt der Verwendung von Planeten-Gravitationsmodellen für den Stadtverkehr. Ich finde es absurd, aber es funktioniert
ziemlich
5
Ich bin an der letzten Aussage interessiert: "Das allererste im Handel erhältliche (und funktionierende) Insolvenzmodell, das von den Kreditauskunfteien implementiert wurde, wurde durch ein einfaches altes lineares Regressionsmodell mit dem Ziel eines 0-1-Ergebnisses erstellt." Um welches Modell handelte es sich? Ich glaube, dass das erste Modell RiskCalc von Moody's war und sogar die erste Version ein logistisches Regressionsmodell. Die Entwickler dieses Modells waren keine CS-Leute mit ML-Hintergrund, sondern Ökonometriker.
gappy
2
Ich wette, sie haben vor der logistischen Regression eine Diskriminanzanalyse durchgeführt, da DA schon lange vor LR erfunden wurde
Neil McGuigan,
1
@gappy Ich denke an das MDS Consumer Bankruptcy-Modell für einzelne Kreditauskunfteien. RiskCalc war eine Kreditrisikobewertung für Unternehmen. Das MDS-Insolvenzmodell unterschied sich von den damaligen FICO-Risikomodellen darin, dass das Ziel Insolvenz und NICHT Kreditausfall war (wie die ursprünglichen Bewertungen von FICO). Mein Kommentar bezog sich weniger auf die Besonderheiten von ML in diesem Zusammenhang (da es zum Zeitpunkt der Erstellung des BK-Modells - wenn überhaupt - kaum in Gebrauch war), sondern auf die Tatsache, dass die praktische Wirksamkeit überhaupt nicht unbedingt damit zusammenhängt theoretische Einschränkungen oder Annahme Verstöße.
Jay Stevens
Nur neugierig, warum es technisch ein schlechter Ansatz war. Weil es zu viele vereinfachende Annahmen gab, die sich stark von der Realität unterscheiden würden?
xji
25

Die größten Unterschiede, die ich im letzten Jahr bemerkt habe, sind:

  • Experten für maschinelles Lernen verbringen nicht genügend Zeit mit Grundlagen, und viele von ihnen verstehen nicht die Regeln für optimale Entscheidungsfindung und korrekte Genauigkeitsbewertung. Sie verstehen nicht, dass Vorhersagemethoden, die keine Annahmen treffen, größere Stichproben erfordern als solche, die dies tun.
  • Wir Statistiker verbringen zu wenig Zeit damit, gute Programmierpraktiken und neue Computersprachen zu erlernen. Wir sind zu langsam, um neue Methoden aus der statistischen Literatur zu berechnen und anzuwenden.
Frank Harrell
quelle
2
Eine weitere Bemerkung ist, dass wir Statistiker dazu neigen, uns auf Methoden zu beschränken, die wir mit Mathematik beweisen können und die gut funktionieren (unter einer Reihe vielleicht lächerlicher Annahmen), insbesondere wenn es um Veröffentlichungen geht. Menschen, die maschinell lernen, wenden sehr gerne Methoden an, die empirisch an einigen wenigen Datensätzen gut funktionieren. Infolgedessen bewegt sich die ML-Literatur meiner Meinung nach viel schneller, erfordert aber auch ein stärkeres Durchsuchen der Albernheit.
Cliff AB
24

Ich stimme dieser Frage nicht zu, da dies darauf hindeutet, dass maschinelles Lernen und Statistik unterschiedliche oder widersprüchliche Wissenschaften sind ... wenn das Gegenteil der Fall ist!

Maschinelles Lernen nutzt Statistiken in großem Umfang ... Ein kurzer Überblick über Softwarepakete für maschinelles Lernen oder Data Mining zeigt Clustering-Techniken wie k-means, die auch in der Statistik zu finden sind auch eine statistische Technik ... sogar logistische Regression noch eine andere.

Meiner Ansicht nach besteht der Hauptunterschied darin, dass traditionell Statistiken verwendet wurden, um eine vorgefertigte Theorie zu beweisen, und dass die Analyse in der Regel auf dieser Haupttheorie beruhte. Während beim Data Mining oder beim maschinellen Lernen normalerweise das Gegenteil der Fall ist, möchten wir nur einen Weg finden, dies vorherzusagen, anstatt die Frage zu stellen oder die Theorie zu bilden, ist dies das Ergebnis!

Mojo
quelle
21

Ich habe auf einem anderen Forum der ASA Statistical Consulting eGroup darüber gesprochen. Meine Antwort betraf insbesondere das Data Mining, aber beides geht Hand in Hand. Wir Statistiker haben Data Minern, Informatikern und Ingenieuren die Nase gerissen. Es ist falsch. Ich denke, ein Grund dafür ist, dass einige Leute auf diesen Gebieten die stochastische Natur ihres Problems ignorieren. Einige Statistiker nennen Data Mining Data Snooping oder Data Fishing. Einige Leute missbrauchen und missbrauchen die Methoden, aber Statistiker sind beim Data Mining und beim maschinellen Lernen ins Hintertreffen geraten, weil wir sie mit einem breiten Pinsel zeichnen. Einige der großen statistischen Ergebnisse stammen von außerhalb des Statistikbereichs. Boosting ist ein wichtiges Beispiel. Aber Statistiker wie Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman und andere haben es verstanden und ihre Führung hat Statistiker in die Analyse von Microarrays und anderen großen Inferenzproblemen einbezogen. Während die Kulturen vielleicht nie ineinander greifen, gibt es jetzt mehr Kooperation und Zusammenarbeit zwischen Informatikern, Ingenieuren und Statistikern.

Michael Chernick
quelle
19

Das eigentliche Problem ist, dass diese Frage falsch ist. Es ist nicht maschinelles Lernen gegen Statistik, es ist maschinelles Lernen gegen echten wissenschaftlichen Fortschritt. Wenn ein Gerät für maschinelles Lernen in 90% der Fälle die richtigen Vorhersagen liefert, ich aber das "Warum" nicht verstehe, welchen Beitrag leistet maschinelles Lernen für die Wissenschaft insgesamt? Stellen Sie sich vor, Sie würden maschinelles Lernen anwenden, um die Positionen von Planeten vorherzusagen: Viele selbstgefällige Menschen glauben, mit ihren SVMs eine Reihe von Dingen genau vorhersagen zu können, aber was würden sie wirklich über das Problem wissen, das sie in ihren Händen haben? ? Offensichtlich schreitet die Wissenschaft nicht wirklich durch numerische Vorhersagen voran, sondern durch Modelle (mental, mathematisch), die uns weit über Zahlen hinausblicken lassen.

user36080
quelle
1
+1 Dies erinnert mich an die Verwendung von Modellen in der Wirtschaft. Ökonometrische Modelle dienen mehreren Zwecken. nämlich Politikanalyse und Prognose. Im Allgemeinen kümmert sich niemand wirklich um Prognosen - es sind die Politiksimulationen, die am wichtigsten sind. Wie David Hendry sagte, ist das beste Prognosemodell nicht unbedingt das beste Modell für die Politikanalyse - und umgekehrt. Müssen Sie einen Schritt zurück und denken ... Was ist der Zweck des Modells? Welche Fragen versuchen wir zu beantworten? Und wie das paßt mit empirischen Entdeckungen zu machen .
Graeme Walsh
17

Statistisches Lernen (AKA Machine Learning) hat seinen Ursprung in der Suche nach Software durch "Lernen aus Beispielen". Es gibt viele Aufgaben, die Computer ausführen sollen (z. B. Computer Vision, Spracherkennung, Robotersteuerung), die schwer zu programmieren sind, für die es einfach ist, Schulungsbeispiele bereitzustellen. Die Forschungsgemeinschaft für maschinelles Lernen / statistisches Lernen entwickelte Algorithmen, um Funktionen aus diesen Beispielen zu lernen. Die Verlustfunktion hing typischerweise mit der Leistungsaufgabe (Sehen, Spracherkennung) zusammen. Und natürlich hatten wir keinen Grund zu der Annahme, dass diesen Aufgaben ein einfaches "Modell" zugrunde liegt (da wir sonst dieses einfache Programm selbst programmiert hätten). Die ganze Idee, statistische Schlussfolgerungen zu ziehen, ergab daher keinen Sinn. Das Ziel ist die Vorhersagegenauigkeit und sonst nichts.

Im Laufe der Zeit begannen verschiedene Kräfte, maschinell lernende Menschen anzutreiben, um mehr über Statistiken zu erfahren. Eines war die Notwendigkeit, Hintergrundwissen und andere Einschränkungen in den Lernprozess einzubeziehen. Dies veranlasste die Menschen, generative probabilistische Modelle in Betracht zu ziehen, da dies die Einbeziehung von Vorwissen über die Struktur des Modells und über Modellparameter und -strukturen erleichtert. Dies führte das Gebiet dazu, die reiche statistische Literatur auf diesem Gebiet zu entdecken. Eine weitere Kraft war die Entdeckung des Phänomens der Überanpassung. Dies führte dazu, dass die ML-Community etwas über Kreuzvalidierung und Regularisierung lernte und erneut die umfangreiche statistische Literatur zu diesem Thema entdeckte.

Der Schwerpunkt der maschinellen Lernarbeit liegt jedoch darauf, ein System zu erstellen, das eine bestimmte Leistung aufweist, anstatt Rückschlüsse auf einen unbekannten Prozess zu ziehen. Dies ist der grundlegende Unterschied zwischen ML und Statistik.

Tom Dietterich
quelle
15

Idealerweise sollte man sich mit Statistik und maschinellem Lernen gründlich auskennen, bevor man versucht, seine Frage zu beantworten. Ich bin ein absoluter Neuling bei ML, also verzeihen Sie mir, wenn das, was ich sage, naiv ist.

Ich habe nur begrenzte Erfahrung mit SVMs und Regressionsbäumen. Was mir aus der Sicht der Statistik als ML-Mangel auffällt, ist ein gut entwickeltes Inferenzkonzept.

Die Inferenz in ML scheint fast ausschließlich auf die Vorhersagegenauigkeit zurückzuführen zu sein, wie sie beispielsweise durch einen mittleren Klassifizierungsfehler (MCE) oder eine ausgeglichene Fehlerrate (BER) oder dergleichen gemessen wird. ML hat die sehr gute Angewohnheit, Daten zufällig (normalerweise 2: 1) in einen Trainingssatz und einen Testsatz zu unterteilen. Die Modelle werden mit dem Trainingsset fit und die Leistung (MCE, BER usw.) wird mit dem Testset bewertet. Dies ist eine hervorragende Praxis und hält nur langsam Einzug in die allgemeinen Statistiken.

ML macht auch starken Gebrauch von Resampling-Methoden (insbesondere Kreuzvalidierung), deren Ursprung in der Statistik zu liegen scheint.

ML scheint jedoch ein vollständig entwickeltes Inferenzkonzept zu fehlen - jenseits der Vorhersagegenauigkeit. Dies hat zwei Ergebnisse.

1) Es scheint kein Verständnis dafür zu geben, dass eine Vorhersage (Parameterschätzung usw.) einem zufälligen Fehler und möglicherweise einem systemmatischen Fehler (Bias) unterliegt. Statistiker werden akzeptieren, dass dies ein unvermeidlicher Teil der Vorhersage ist, und versuchen, den Fehler abzuschätzen. Mit statistischen Methoden wird versucht, eine Schätzung zu finden, die minimale Abweichungen und zufällige Fehler aufweist. Ihre Techniken werden normalerweise von einem Modell des Datenprozesses gesteuert, jedoch nicht immer (z. B. Bootstrap).

2) In ML scheint es kein tiefes Verständnis für die Grenzen der Anwendung eines Modells auf neue Daten für eine neue Stichprobe aus derselben Grundgesamtheit zu geben (trotz meiner Ausführungen zum Ansatz für Trainings-Test-Datensätze). Verschiedene statistische Techniken, darunter Kreuzvalidierung und Strafbegriffe für wahrscheinlichkeitsbasierte Methoden, leiten die Statistiker in der Abwägung zwischen Sparsamkeit und Modellkomplexität. Solche Richtlinien in ML scheinen eher ad hoc zu sein.

Ich habe mehrere Artikel in ML gesehen, in denen die Kreuzvalidierung verwendet wird, um die Anpassung vieler Modelle an einen Trainingsdatensatz zu optimieren - was mit zunehmender Komplexität des Modells eine immer bessere Anpassung ergibt. Es scheint wenig Verständnis dafür zu haben, dass die winzigen Genauigkeitsgewinne die zusätzliche Komplexität nicht wert sind und dies natürlich zu einer Überanpassung führt. Anschließend werden alle diese optimierten Modelle auf das Test-Set angewendet, um die prädiktive Leistung zu überprüfen und eine Überanpassung zu verhindern. Zwei Dinge wurden vergessen (oben). Die Vorhersageleistung wird eine stochastische Komponente haben. Zweitens führen mehrere Tests gegen einen Testsatz erneut zu einer Überanpassung. Das "beste" Modell wird vom ML-Praktiker ohne volle Wertschätzung ausgewählt, die er / sie aus einer Realisierung vieler möglicher Ergebnisse dieses Experiments ausgewählt hat.

Beliebige meine 2 Cent wert. Wir haben viel voneinander zu lernen.

Thylacoleo
quelle
2
Ihr Kommentar zu Das "beste" Modell wird vom ML-Praktiker ausgewählt ... gilt auch für die Mainstream-Statistik. Bei den meisten Modellauswahlverfahren wird das endgültige Modell einfach so festgelegt, als ob keine Suche im Modellbereich durchgeführt worden wäre (vorausgesetzt, die Modellmittelung ist recht neu). Ich glaube nicht, dass man das als "Verein" benutzen kann, um den ML-Praktizierenden sozusagen zu besiegen.
Wahrscheinlichkeitslogik
Als ML-Praktizierender erkenne ich das Bild, das Sie malen, nicht. In der ML-Literatur geht es fast ausschließlich um Variationen der Regularisierung, MDL, Bayesian, SRM und andere Ansätze zur Steuerung der Komplexität des Modells. Von meinem Standpunkt aus scheint es, dass die Methoden von stat zur Steuerung der Komplexität weniger strukturiert sind, aber für Sie ist das eine Befangenheit.
Muhammad Alkarouri
13

Diese Frage kann auch auf die sogenannte Super-Kultur der Datenwissenschaft im Jahr 2015 ausgedehnt werden. David Donoho arbeitet an 50 Jahren Datenwissenschaft , in denen er sich mit unterschiedlichen Gesichtspunkten aus Statistik und Informatik (einschließlich maschinellem Lernen) auseinandersetzt, zum Beispiel mit direkten Standpunkten (von verschiedenen Personen) so, dass:

  • Warum brauchen wir Data Science, wenn wir seit Jahrhunderten Statistiken haben?
  • Data Science ist Statistik.
  • Data Science ohne Statistik ist möglich, sogar wünschenswert.
  • Statistik ist der am wenigsten wichtige Teil der Datenwissenschaft.

und mit historischen, philosophischen Überlegungen sortiert, zum Beispiel:

Es ist bemerkenswert, wie ich bei einem Rückblick auf eine Präsentation zur heutigen Datenwissenschaft, in der die Statistik besonders kurz dargestellt wird, feststellen kann, dass die zugrunde liegenden Tools, Beispiele und Ideen, die als Datenwissenschaft vermittelt werden, alle vorhanden sind buchstäblich von jemandem erfunden, der in Ph.D. Statistiken, und in vielen Fällen wurde die tatsächlich verwendete Software von jemandem mit einem MA oder Ph.D. entwickelt. in der Statistik. Die über Jahrhunderte angesammelten Anstrengungen von Statistikern sind einfach zu überwältigend, um vollständig dokumentiert zu werden, und können nicht in der Lehre, Forschung und Übung von Data Science verborgen werden.

Dieser Aufsatz hat viele Antworten und Beiträge zur Debatte hervorgebracht.

Laurent Duval
quelle
3
Dies sieht aus wie ein Artikel , der es wert wäre, in diesem kürzlich veröffentlichten, populären Thread erwähnt zu werden.
Amöbe
1
Ich denke, wenn Sie dort eine neue Antwort veröffentlichen, die dieses Papier zusammenfasst, wird es großartig sein.
Amöbe
Ich werde und muss zuerst alle gegebenen Antworten für mich selbst zusammenfassen
Laurent Duval
12

Ich weiß nicht wirklich, was der konzeptuelle / historische Unterschied zwischen maschinellem Lernen und Statistik ist, aber ich bin sicher, dass es nicht so offensichtlich ist ... und ich bin nicht wirklich daran interessiert zu wissen, ob ich Maschinenlerner oder Statistiker bin, denke ich 10 Jahre nach Breimans Zeitung sind viele Leute beide ...

Auf jeden Fall fand ich die Frage nach der Vorhersagegenauigkeit von Modellen interessant . Wir müssen uns daran erinnern, dass es nicht immer möglich ist, die Genauigkeit eines Modells zu messen, und wir nehmen meist implizit eine Modellierung vor, wenn wir Fehler messen.

Beispielsweise ist der mittlere absolute Fehler in der Zeitreihenvorhersage ein Mittelwert über die Zeit und misst die Leistung eines Verfahrens zur Vorhersage des Medians unter der Annahme, dass die Leistung in gewissem Sinne stationär ist und eine ergodische Eigenschaft aufweist. Wenn Sie (aus irgendeinem Grund) die Durchschnittstemperatur auf der Erde für die nächsten 50 Jahre vorhersagen müssen und Ihre Modellierung in den letzten 50 Jahren gute Ergebnisse erzielt hat, bedeutet dies nicht, dass ...

Im Allgemeinen (wenn ich mich recht erinnere, heißt es kein kostenloses Mittagessen) kann man nichts ohne Modellierung tun ... Außerdem denke ich, dass die Statistik versucht, eine Antwort auf die Frage zu finden: "Ist etwas Bedeutendes oder nicht Bedeutendes". Dies ist eine sehr wichtige Frage in der Wissenschaft und kann nicht durch einen Lernprozess beantwortet werden. John Tukey (war er ein Statistiker?):

Die Kombination einiger Daten und das Verlangen nach einer Antwort stellen nicht sicher, dass eine vernünftige Antwort aus einem gegebenen Datenbestand extrahiert werden kann

Hoffe das hilft !

Robin Girard
quelle
12

Es ist klar, dass die beiden Bereiche mit ähnlichen, aber unterschiedlichen Problemen konfrontiert sind, und zwar auf ähnliche, aber nicht identische Weise mit analogen, aber nicht identischen Konzepten. Sie arbeiten in verschiedenen Abteilungen, Zeitschriften und Konferenzen.

Als ich Cressie und Reads Power Divergence Statistic las, schnappte alles für mich zusammen. Ihre Formel verallgemeinert häufig verwendete Teststatistiken in eine, die um einen Exponenten, Lambda, variiert. Es gibt zwei Sonderfälle, Lambda = 0 und Lambda = 1.

Informatik und Statistik gehören zu einem Kontinuum (das vermutlich auch andere Punkte umfassen könnte). Bei einem Lambda-Wert erhalten Sie Statistiken, die häufig in Statistikkreisen verwendet werden, und bei einem anderen Wert Statistiken, die häufig in Comp-Sci-Kreisen verwendet werden.

Statistiken

  • Lambda = 1
  • Quadratsummen treten häufig auf
  • Varianz als Maß für die Variabilität
  • Kovarianz als Maß für Assoziation
  • Chi-Quadrat-Statistik als Maß für die Modellanpassung

Computerwissenschaften:

  • Lambda = 0
  • Summen von Protokollen erscheinen häufig
  • Entropie als Maß für die Variabilität
  • Gegenseitige Information als Assoziationsmaßstab
  • G-Quadrat-Statistik als Maß für die Modellanpassung
user645715
quelle
9

Sie führen einmal einen ausgefallenen Computeralgorithmus aus - und Sie erhalten ein CS-Konferenzpräsentations- / Statistikpapier (wow, was für eine schnelle Konvergenz!). Sie kommerzialisieren es und führen es 1 Million Mal aus - und Sie sind pleite (autsch, warum erhalte ich die ganze Zeit nutzlose und nicht reproduzierbare Ergebnisse ???), es sei denn, Sie wissen, wie man Wahrscheinlichkeit und Statistik einsetzt, um die Eigenschaften des Algorithmus zu verallgemeinern.

StasK
quelle
3
Ich habe diese Antwort abgelehnt. Obwohl bei einer solchen Frage zwangsläufig einige persönliche Meinungen geäußert werden, sollten wir, IMO, nach einer inhaltlicheren Kritik streben. Dies kommt nur als Scherz raus.
Andy W
@AndyW, das ist natürlich eine Übertreibung von dem, was ich sehe. Ein Versagen, statistisch vorauszudenken, gilt auch für die akademische Welt: Die Reproduzierbarkeit der veröffentlichten Ergebnisse in den Bereichen Psychologie oder Medizin beträgt höchstens 25% (siehe z. B. simplystatistics.tumblr.com/post/21326470429/… ) und nicht den Nennwert 95%. Das OP wollte, dass die Statistik die Informatik einbezieht. Vielleicht sollte sich die Informatik mit Statistik befassen, und ich gab die Gründe dafür an.
StasK
5
@StasK Ich denke, Sie machen einige wichtige Punkte, warum nicht versuchen, sie ein bisschen weniger aggressiv zu machen?
Gala
2
Ich habe diese kernige Antwort genossen.
Ian Warburton
6

Es gibt ein Anwendungsgebiet der Statistik, in dem die Fokussierung auf das Datengenerierungsmodell sehr sinnvoll ist. In geplanten Experimenten, z. B. Tierstudien, klinischen Studien, industriellen DOEs, können Statistiker das Modell der Datengenerierung mitbestimmen. ML neigt dazu, nicht viel Zeit mit diesem sehr wichtigen Problem zu verbringen, da sich ML normalerweise auf ein weiteres sehr wichtiges Problem der Vorhersage konzentriert, das auf „großen“ Beobachtungsdaten basiert. Dies bedeutet nicht, dass ML nicht auf Experimente mit „großem“ Design angewendet werden kann. Es ist jedoch wichtig zu berücksichtigen, dass die Statistik über besondere Fachkenntnisse zu Problemen mit „kleinen“ Daten verfügt, die sich aus Experimenten mit begrenzten Ressourcen ergeben.

Letztendlich denke ich, dass wir uns alle darauf einigen können, das zu verwenden, was am besten funktioniert, um das vorliegende Problem zu lösen. Zum Beispiel können wir ein entworfenes Experiment haben, das sehr breite Daten mit dem Ziel der Vorhersage erzeugt. Statistische Entwurfsprinzipien sind hier sehr nützlich, und ML-Methoden könnten nützlich sein, um den Prädiktor zu erstellen.

Clark
quelle
4

Ich denke, maschinelles Lernen muss ein Unterzweig der Statistik sein, genau wie aus meiner Sicht die Chemie ein Unterzweig der Physik sein muss.

Ich denke, der physikalisch inspirierte Blick in die Chemie ist ziemlich solide (denke ich). Ich glaube nicht, dass es eine chemische Reaktion gibt, deren Äquivalent physikalisch nicht bekannt ist. Ich denke, die Physik hat einen tollen Job gemacht, indem sie alles erklärt, was wir auf chemischer Ebene sehen können. Jetzt scheint die Herausforderung der Physiker darin zu bestehen, die winzigen Geheimnisse auf Quantenebene unter extremen Bedingungen zu erklären, die nicht beobachtbar sind.

Nun zurück zum maschinellen Lernen. Ich denke , es ist auch sollte ein Unterzweig unter Statistik sein (nur wie die Chemie ein Teilgebiet der Physik ist).

Aber es scheint mir, dass entweder der aktuelle Stand des maschinellen Lernens oder die Statistik nicht ausgereift genug sind, um dies perfekt zu realisieren. Aber auf lange Sicht denke ich, dass man ein Unterzweig des anderen werden muss. Ich denke, es ist ML, das unter Statistiken gerät.

Ich persönlich denke, dass "Lernen" und "Analysieren von Stichproben" zum Schätzen / Ableiten von Funktionen oder Vorhersagen im Wesentlichen eine Frage der Statistik sind.

Höhlenmensch
quelle
3
Sollten Biologie, Psychologie und Soziologie auch "Unterzweige" der Physik sein?
Amöbe
Richtig. Psychologie ist nur Input / Output mit hochkomplizierten biologischen Maschinen. Eines Tages müssen wir unsere Autos möglicherweise an einen Psychologen senden, um dessen Fehler zu diagnostizieren (der Psychologe selbst könnte ein Computer sein).
Höhlenmensch
1
Mathematik scheint mir der Vater von allem zu sein. Von dort haben wir Mathematik angewendet, aus der Physik und andere Dinge stammen. Statistik ist eine davon. Ich denke, ML muss kein eigenständiger Zweig sein und stattdessen in die Statistik eingehen. Wenn ML jedoch zu einem eigenen Zweig wird, ist es mir lieber, wenn es ein untergeordneter Zweig der Statistik ist.
Höhlenmensch
4

Aus dem Coursera-Kurs "Data Science in real life" von Brian Caffo

Maschinelles lernen

  • Betonen Sie Vorhersagen
  • Bewertet die Ergebnisse über die Prognoseleistung
  • Sorge um Überanpassung, aber nicht um die Modellkomplexität an sich
  • Schwerpunkt auf Leistung
  • Die Generalisierbarkeit wird durch Leistung an neuartigen Datensätzen erreicht
  • Normalerweise ist kein Superpopulationsmodell angegeben
  • Sorge um Leistung und Robustheit

Traditionelle statistische Analyse

  • Betont die Überbevölkerungsinferenz
  • Konzentriert sich auf A-priori-Hypothesen
  • Einfachere Modelle werden komplexen vorgezogen (Sparsamkeit), auch wenn die komplexeren Modelle eine etwas bessere Leistung erbringen
  • Betonung der Interpretierbarkeit von Parametern
  • Statistische Modellierung oder Stichprobenannahmen verbinden Daten mit einer Population von Interesse
  • Besorgnis über Annahmen und Robustheit
KoenBal
quelle
-5

Als Informatiker bin ich immer fasziniert von statistischen Ansätzen. Für mich sieht es oft so aus, als wären die in der statistischen Analyse verwendeten statistischen Modelle für die Daten in vielen Situationen viel zu komplex!

Beispielsweise besteht ein enger Zusammenhang zwischen Datenkomprimierung und Statistik. Grundsätzlich braucht man ein gutes statistisches Modell, das die Daten gut vorhersagen kann und dies bringt eine sehr gute Komprimierung der Daten. In der Informatik sind bei der Komprimierung der Daten immer die Komplexität des statistischen Modells und die Genauigkeit der Vorhersage von großer Bedeutung. Niemand möchte NIEMALS eine Datendatei (mit Ton- oder Bilddaten oder Videodaten) haben, die nach der Komprimierung größer wird!

Ich finde, dass es in der Informatik dynamischere Dinge in Bezug auf Statistiken gibt, wie zum Beispiel die minimale Beschreibungslänge und die normalisierte maximale Wahrscheinlichkeit .

cerb
quelle