Ist es im Allgemeinen schwieriger, Schlussfolgerungen zu ziehen, als Vorhersagen zu treffen?

13

Meine Frage ergibt sich aus der folgenden Tatsache. Ich habe Beiträge, Blogs, Vorträge sowie Bücher über maschinelles Lernen gelesen. Mein Eindruck ist, dass Praktiker des maschinellen Lernens vielen Dingen, die Statistiker / Ökonometrie interessieren, gleichgültig gegenüberstehen. Insbesondere betonen Praktiker des maschinellen Lernens die Vorhersagegenauigkeit gegenüber der Inferenz.

Ein solches Beispiel trat auf, als ich Andrew Ngs maschinelles Lernen auf Coursera nahm. Bei der Erörterung des einfachen linearen Modells erwähnte er nichts über die BLAUE Eigenschaft der Schätzer oder darüber, wie Heteroskedastizität das Konfidenzintervall "ungültig machen" würde. Stattdessen konzentriert er sich auf die Implementierung des Gradientenabfalls und das Konzept der Kreuzvalidierung / ROC-Kurve. Diese Themen wurden in meinen Kursen zu Ökonometrie / Statistik nicht behandelt.

Ein weiteres Beispiel war die Teilnahme an Kaggle-Wettbewerben. Ich habe den Code und die Gedanken anderer Leute gelesen. Ein großer Teil der Teilnehmer wirft einfach alles in SVM / Random Forest / XGBoost.

Ein weiteres Beispiel ist die schrittweise Modellauswahl. Diese Technik ist weit verbreitet, zumindest online und bei Kaggle. Viele klassische Lehrbücher für maschinelles Lernen behandeln dies ebenfalls, beispielsweise die Einführung in das statistische Lernen. Nach dieser Antwort (die ziemlich überzeugend ist) ist die schrittweise Modellauswahl jedoch mit vielen Problemen verbunden, insbesondere wenn es darum geht, "das wahre Modell zu entdecken". Es scheint nur zwei Möglichkeiten zu geben: Entweder kennen Praktiker des maschinellen Lernens das Problem nicht schrittweise, oder sie tun es, aber es ist ihnen egal.

Also hier sind meine Fragen:

  1. Stimmt es, dass sich (im Allgemeinen) Praktiker des maschinellen Lernens auf die Vorhersage konzentrieren und sich daher nicht um viele Dinge kümmern, die Statistiker / Ökonomen interessieren?
  2. Wenn es wahr ist, was ist dann der Grund dafür? Liegt es daran, dass Inferenz in gewissem Sinne schwieriger ist?
  3. Es gibt Unmengen von Materialien zum maschinellen Lernen (oder zur Vorhersage) online. Wenn ich jedoch etwas über Inferenz lernen möchte, welche Online-Ressourcen kann ich konsultieren?

Update : Ich habe gerade festgestellt, dass das Wort "Inferenz" möglicherweise viele Dinge bedeuten kann. Was ich mit "Inferenz" gemeint habe, bezieht sich auf Fragen wie

  1. X.Y.Y.X.X.1,X.2,,X.n

  2. Da "alle Modelle falsch sind", wie "falsch" ist unser Modell vom wahren Modell?

  3. Was können wir angesichts der Informationen einer Stichprobe über die Bevölkerung sagen und wie sicher können wir das sagen?

Aufgrund meiner sehr begrenzten statistischen Kenntnisse bin ich mir nicht einmal sicher, ob diese Fragen in den Bereich der Statistik fallen oder nicht. Aber das sind die Arten von Fragen, die den Praktikern des maschinellen Lernens nicht wichtig zu sein scheinen. Vielleicht kümmern sich Statistiker auch nicht darum? Ich weiß es nicht.

3x89g2
quelle
2
Brian D Ripley wird auf useR zitiert! 2004 mit "Um es provokativ zu paraphrasieren: Maschinelles Lernen ist Statistik abzüglich jeglicher Überprüfung von Modellen und Annahmen." Der Satz ist Teil des fortunesCRAN-Pakets geworden. Dies nur um zu sagen, Sie sind nicht allein mit dem Eindruck, dass mathematische Strenge nicht immer das Hauptanliegen beim maschinellen Lernen ist.
Bernhard
Leo Breiman befasst sich genau mit dieser Frage in seiner 2001 erschienenen Arbeit "Statistical Modeling: Die zwei Kulturen" , die eine großartige Lektüre ist.
Skd

Antworten:

6

Erstens hätte ich eine andere Perspektive für maschinelles Lernen. Was Sie erwähnt haben, Andrew Ngs Coursera-Vortrag und der Kaggle-Wettbewerb sind nicht 100% des maschinellen Lernens, sondern einige Branchen, die auf praktische Anwendungen ausgerichtet sind. Echte Forschung zum maschinellen Lernen sollte die Arbeit sein, die das zufällige Wald- / SVM- / Gradienten-Boosting-Modell erfindet, das der Statistik / Mathematik ziemlich nahe kommt.

Ich würde zustimmen, dass sich Praktiker des maschinellen Lernens im Vergleich zu Statistikern / Ökonomen mehr auf Genauigkeit konzentrieren. Es gibt Gründe, warum Menschen daran interessiert sind, eine bessere Genauigkeit zu erzielen, anstatt "auf die wahre Verteilung zu schließen". Der Hauptgrund ist, dass sich die Art und Weise, wie wir Daten sammeln und verwenden, in den letzten Jahrzehnten geändert hat.

Die Statistik wurde hundert Jahre lang erstellt, aber in der Vergangenheit hat niemand daran gedacht, dass Sie Milliarden von Daten für Schulungen und andere Milliarden von Daten für Tests haben. (Zum Beispiel Anzahl der Bilder im Internet). Daher sind bei relativ geringen Datenmengen Annahmen aus dem Domänenwissen erforderlich, um die Arbeit zu erledigen. Oder Sie können darüber nachdenken, das Modell zu "regulieren". Sobald die Annahmen getroffen wurden, gibt es Rückschlussprobleme hinsichtlich der "wahren" Verteilung.

Können wir jedoch, wenn wir sorgfältig darüber nachdenken, sicherstellen, dass diese Annahmen wahr sind und die Schlussfolgerungen gültig sind? Ich möchte George Box zitieren:

Alle Modelle sind falsch, aber einige sind nützlich

Lassen Sie uns nun über den praktischen Ansatz nachdenken, bei dem mehr Wert auf Genauigkeit als auf Annahme / Schlussfolgerung gelegt wird. Es ist ein guter Ansatz, wenn wir eine große Datenmenge haben.

Angenommen, wir erstellen ein Modell für alle Bilder, die menschliche Gesichter auf Pixelebene enthalten. Erstens ist es sehr schwierig, die Annahmen auf Pixelebene für Milliarden von Bildern vorzuschlagen: Niemand hat dieses Domänenwissen. Zweitens können wir über alle möglichen Möglichkeiten nachdenken, um die Daten anzupassen, und da die Daten sehr groß sind, sind möglicherweise nicht alle Modelle ausreichend (fast unmöglich zu überanpassen).

Dies ist auch der Grund, warum "Deep Learning / Neuronales Netzwerk" wieder populär wurde. Unter der Bedingung von Big Data können wir ein Modell auswählen, das wirklich komplex ist, und es so gut wie möglich anpassen, und wir sind möglicherweise immer noch in Ordnung, da unsere Rechenressourcen im Vergleich zu allen realen Daten im Wort begrenzt sind.

Wenn das von uns erstellte Modell in einem riesigen Testdatensatz gut ist, sind sie gut und wertvoll, obwohl wir die unterstrichene Annahme oder die wahre Verteilung möglicherweise nicht kennen.


Ich möchte darauf hinweisen, dass das Wort "Inferenz" in verschiedenen Gemeinschaften unterschiedliche Bedeutungen hat.

  • In der Statistik-Community bedeutet dies normalerweise, Informationen über die wahre Verteilung auf parametrische oder nicht parametrische Weise zu erhalten.
  • In der Community des maschinellen Lernens bedeutet dies normalerweise, bestimmte Wahrscheinlichkeiten aus einer bestimmten Verteilung zu berechnen. Beispiele finden Sie in Murphys Tutorial für grafische Modelle .
  • Beim maschinellen Lernen verwenden die Menschen das Wort "Lernen", um "die Parameter der wahren Verteilung zu erhalten" darzustellen, was der "Folgerung" in der Statistikgemeinschaft ähnlich ist.

Sie können also im Wesentlichen sehen, dass es viele Menschen im maschinellen Lernen gibt, die auch "Inferenz" machen.

Darüber hinaus können Sie auch an Menschen in der Wissenschaft denken, die gerne "ihre Arbeit umbenennen und weiterverkaufen": Die Entwicklung neuer Begriffe kann hilfreich sein, um die Neuheit der Forschung zu demonstrieren. Tatsächlich gibt es viele Überschneidungen zwischen künstlicher Intelligenz, Data Mining und maschinellem Lernen. Und sie sind eng mit Statistik und Algorithmusdesign verbunden. Auch hier gibt es keine klaren Grenzen, um "Inferenz" zu machen oder nicht.

Haitao Du
quelle
3
Ich kann sehen, woher du kommst. Eine alternative Einstellung könnte sein: Vorhersage = Fokus auf beobachtete Variablen, Inferenz = Fokus auf versteckte Variablen. In gewissem Sinne versucht die Inferenz also, neue Arten von Messungen zu erzeugen , während es bei der Vorhersage eher um neue Realisierungen von Messungen geht, die im Prinzip beobachtet werden könnten ? (Dies ist natürlich mit Ihrer Antwort kompatibel)
GeoMatt22