Ich verfolge derzeit ein Masterstudium mit Schwerpunkt Statistik / Ökonometrie. In meinem Master mussten alle Studenten 3 Monate lang recherchieren. Letzte Woche mussten alle Gruppen ihre Forschungen den restlichen Masterstudenten vorstellen.
Fast jede Gruppe führte für ihre Forschungsthemen statistische Modellierungen und maschinelle Lernmodelle durch, und jedes Mal, wenn Vorhersagen außerhalb der Stichprobe kamen, um über die einfachen maschinellen Lernmodelle zu sprechen, übertrafen sie die hoch entwickelten statistischen Modelle, an denen in den letzten drei Jahren alle sehr hart gearbeitet haben Monate. Unabhängig davon, wie gut die statistischen Modelle eines jeden sind, hat ein einfacher Zufallswald so gut wie immer weniger Fehler außerhalb der Stichprobe.
Ich habe mich gefragt, ob dies eine allgemein akzeptierte Beobachtung ist. Dass, wenn es um Prognosen außerhalb der Stichprobe geht, es einfach keine Möglichkeit gibt, ein einfaches Zufallswald- oder extremes Gradienten-Boosting-Modell zu übertreffen? Diese beiden Methoden sind mit R-Paketen sehr einfach zu implementieren, während alle statistischen Modelle, die jeder entwickelt hat, eine Menge Erfahrung, Wissen und Aufwand erfordern, um geschätzt zu werden.
Was denkst du darüber? Ist der einzige Vorteil von statistischen / ökonometrischen Modellen, den Sie interpretieren können? Oder waren unsere Modelle einfach nicht gut genug, um einfache zufällige Waldvorhersagen nicht signifikant zu übertreffen? Gibt es Papiere, die sich mit diesem Problem befassen?
Antworten:
Die statistische Modellierung unterscheidet sich vom maschinellen Lernen. Beispielsweise ist eine lineare Regression sowohl ein statistisches Modell als auch ein Modell des maschinellen Lernens. Wenn Sie also eine lineare Regression mit einer zufälligen Gesamtstruktur vergleichen, vergleichen Sie einfach ein einfacheres Modell für maschinelles Lernen mit einem komplizierteren. Sie sind nicht ein statistisches Modell zu einem Maschinenlernmodell zu vergleichen.
Die statistische Modellierung bietet mehr als nur Interpretation. es gibt tatsächlich ein Modell einiger Populationsparameter. Es hängt von einem großen Rahmen aus Mathematik und Theorie ab, der Formeln für Dinge wie die Varianz von Koeffizienten, die Varianz von Vorhersagen und das Testen von Hypothesen zulässt. Die potenzielle Ausbeute der statistischen Modellierung ist viel höher als beim maschinellen Lernen, da Sie aussagekräftige Aussagen zu Populationsparametern machen können, anstatt nur den Fehler beim Halten zu messen, aber es ist erheblich schwieriger, ein Problem mit einem statistischen Modell anzugehen.
quelle
Es ist falsch, die Frage so zu formulieren, wie Sie sie formuliert haben. Beispielsweise kann ein erheblicher Teil des maschinellen Lernens als statistisches Lernen bezeichnet werden . Ihr Vergleich ist also wie bei Äpfeln gegen Obstkuchen.
Ich gehe jedoch so vor, wie Sie es eingerahmt haben, und behaupte Folgendes: Wenn es um die Vorhersage geht, kann nichts ohne irgendeine Form von Statistik gemacht werden, da die Vorhersage von Natur aus Zufälligkeit (Ungewissheit) enthält. Bedenken Sie Folgendes: Trotz des großen Erfolgs des maschinellen Lernens in einigen Anwendungen Vorhersage des Vermögenspreises absolut nichts bewirken. Gar nichts. Warum? Denn in den meisten entwickelten liquiden Märkten sind die Vermögenspreise von Natur aus stochastisch.
Sie können den ganzen Tag lang maschinelles Lernen durchführen, um den radioaktiven Zerfall von Atomen zu beobachten und zu lernen, und es wird niemals in der Lage sein, die Zerfallszeit des nächsten Atoms vorherzusagen, einfach weil sie zufällig ist.
Als angehender Statistiker wäre es dumm von Ihrer Seite, das maschinelle Lernen nicht zu beherrschen, weil es eine der heißesten Anwendungen der Statistik ist, es sei denn, Sie wissen natürlich, dass Sie auf eine akademische Ausbildung gehen. Jeder, der wahrscheinlich in der Branche arbeiten wird, muss ML beherrschen. Es gibt überhaupt keine Feindseligkeit oder Konkurrenz zwischen Statistiken und ML-Massen. In der Tat, wenn Sie gerne programmieren, werden Sie sich im ML-Bereich wie zu Hause fühlen
quelle
Im Allgemeinen nicht, aber möglicherweise ja bei falscher Angabe. Das Problem, das Sie suchen, heißt Zulässigkeit. Eine Entscheidung ist zulässig, wenn ihre Berechnung nicht weniger riskant ist.
Alle Bayes'schen Lösungen sind zulässig und nicht-Bayes'sche Lösungen sind zulässig, sofern sie entweder in jeder Stichprobe mit einer Bayes'schen Lösung übereinstimmen oder an der Grenze liegen. Eine zulässige Frequentist- oder Bayes'sche Lösung schlägt immer eine ML-Lösung, es sei denn, sie ist ebenfalls zulässig. Nach alledem gibt es einige praktische Bemerkungen, die diese Aussage wahr, aber unvollständig machen.
Erstens muss der Prior für die Bayes'sche Option Ihr echter Prior sein und nicht irgendeine vorherige Verteilung, die verwendet wird, um einen Redakteur in einer Zeitschrift glücklich zu machen. Zweitens sind viele Frequentist-Lösungen unzulässig, und anstelle der Standardlösung sollte ein Schrumpfungsschätzer verwendet werden. Viele Menschen sind sich des Lemmas von Stein und seiner Auswirkungen auf Fehler außerhalb der Stichprobe nicht bewusst. Schließlich kann ML in vielen Fällen etwas robuster gegen Fehlspezifikationen sein.
Wenn Sie in Entscheidungsbäume und deren Cousins in den Wäldern ziehen, wenden Sie keine ähnliche Methode an, es sei denn, Sie verwenden auch etwas Ähnliches wie ein Bayes-Netz. Eine Graphlösung enthält eine erhebliche Menge impliziter Informationen, insbesondere einen gerichteten Graphen. Wenn Sie einem probabilistischen oder statistischen Prozess Informationen hinzufügen, verringern Sie die Variabilität des Ergebnisses und ändern, was als zulässig angesehen wird.
Wenn Sie sich das maschinelle Lernen aus der Perspektive der Zusammensetzung von Funktionen ansehen, wird es lediglich zu einer statistischen Lösung, wobei jedoch Approximationen verwendet werden, um die Lösung nachvollziehbar zu machen. Für Bayes'sche Lösungen spart MCMC unglaublich viel Zeit, ebenso wie der Gradientenabstieg für viele ML-Probleme. Wenn Sie entweder einen exakten Posterior konstruieren müssten, um viele ML-Probleme zu integrieren, oder brachiale Gewalt anwenden, wäre das Sonnensystem seinem Hitzetod erlegen, bevor Sie eine Antwort erhalten.
Ich vermute, Sie haben ein falsch angegebenes Modell für diejenigen, die Statistiken verwenden oder unangemessene Statistiken. Ich unterrichtete eine Vorlesung, in der ich nachwies, dass Neugeborene aus dem Fenster schweben, wenn sie nicht angemessen gewickelt werden, und in der eine Bayes'sche Methode eine so radikale Leistung erbrachte, dass sich die Frequentist-Methode erwartungsgemäß als ausgeglichen erwies, während die Bayes'sche Methode das Geld der Teilnehmer verdoppelte . Jetzt habe ich die Statistik in der ersteren missbraucht und die Unzulässigkeit des Frequentist-Schätzers in der letzteren ausgenutzt, aber ein naiver Benutzer der Statistik konnte leicht tun, was ich tat. Ich habe sie nur extrem gemacht, um die Beispiele verständlich zu machen, aber ich habe absolut reale Daten verwendet.
Zufällige Wälder sind beständige Schätzer und scheinen bestimmten Bayes'schen Prozessen zu ähneln. Aufgrund der Verknüpfung mit Kernel-Schätzern können sie ziemlich eng sein. Wenn Sie einen wesentlichen Leistungsunterschied zwischen den Lösungstypen feststellen, liegt dem zugrunde liegenden Problem etwas zugrunde, das Sie missverstehen. Wenn das Problem von Belang ist, müssen Sie wirklich nach der Ursache des Unterschieds suchen, da dies möglicherweise auch der Fall ist Fall, dass alle Modelle falsch spezifiziert sind.
quelle
Viel maschinelles Lernen unterscheidet sich zumindest für einige Zwecke möglicherweise nicht so sehr vom P-Hacking.
Wenn Sie jedes mögliche Modell testen, um auf der Grundlage historischer Daten ein Modell mit der höchsten Vorhersagegenauigkeit (historische Vorhersage oder Vorhersage außerhalb der Gruppe) zu finden, bedeutet dies nicht unbedingt, dass die Ergebnisse dazu beitragen, die Vorgänge zu verstehen. Möglicherweise findet es jedoch mögliche Zusammenhänge, die eine Hypothese stützen können.
Das Motivieren bestimmter Hypothesen und das anschließende Testen mit statistischen Methoden kann sicherlich auch ähnlich gehackt werden.
Der Punkt ist jedoch, dass, wenn das Kriterium "höchste Vorhersagegenauigkeit basierend auf historischen Daten" ist, ein hohes Risiko besteht, in einem Modell, das man nicht versteht, überzuversichtlich zu sein, ohne tatsächlich eine Vorstellung davon zu haben, was diese historischen Ergebnisse hervorgerufen hat und / oder oder ob sie für die Zukunft aussagekräftig sind.
quelle