Ist die Aufteilung der Daten in Test- und Trainingssätze eine reine Statistiksache?

Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art und Weise, wie Physiker mit Daten umgehen, und der Art und Weise, wie meine datenwissenschaftlichen / statistischen Lernbücher mit Daten umgehen.

Der Hauptunterschied besteht darin, dass beim Versuch, Regressionen für Daten aus physikalischen Experimenten durchzuführen, die Regressionsalgorithmen auf den GANZEN Datensatz angewendet werden und es absolut keine Aufteilung in Trainings- und Testsätze gibt. In der Welt der Physik wird das R ^ 2 oder eine Art von Pseudo-R ^ 2 für das Modell basierend auf dem gesamten Datensatz berechnet. In der Statistikwelt werden die Daten fast immer in 80-20, 70-30 usw. aufgeteilt, und dann wird das Modell anhand des Testdatensatzes bewertet.

Es gibt auch einige wichtige physikalische Experimente (ATLAS, BICEP2 usw.), bei denen diese Daten niemals aufgeteilt werden. Ich frage mich daher, warum es einen so starken Unterschied zwischen der Art und Weise, wie Physiker / Experimentatoren Statistiken erstellen, und der Art und Weise, wie Datenwissenschaftler arbeiten Statistiken machen.

regression machine-learning cross-validation dataset experiment-design Thomas Moore
quelle

(+1) sehr schöne Frage (die ich nicht richtig beantworten kann). Kommentar: Die Physik hat den Luxus "echter Experimente"; allgemein kontrollierte / Laborbedingungen, meist genau definierte Ergebnisse / Variablen und angenommene Wiederholbarkeit. Übliche Projekte im Bereich Public Health / Econometrics / Survey Statistics (um nur einige offensichtliche Teilbereiche zu nennen) verstehen das einfach nicht. Verwirrung, Saisonalität (Zeitabhängigkeit) und allgemeiner Konzeptdrift sind in der Statistik weit verbreitet, daher ist diese "Aufteilung von Daten" eine der offensichtlichen Möglichkeiten, um völlig dumme Ergebnisse zu verhindern. Außerdem sind nicht alle Schätzer gleich effizient. :)

usεr11852 sagt Reinstate Monic

: Sie erhalten eine Fülle von relevanter Diskussion und Hintergrund in einem kürzlich erschienenen Diskussionspapier von David Donoho, eine Statistik Professor an der Stanford finden courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf Siehe insbesondere die Diskussion der „Predictive Kultur "im Gegensatz zu traditionellen Statistiken.

Gordon Smyth

Ich denke, es ist eine "Vorhersage in Abwesenheit von Theorie" Sache, die eine kleine Teilmenge von "Statistiken" und eine große Teilmenge von maschinellem Lernen ist.

The Laconic

Statistiker teilen ihre Daten auch nicht auf (p <0,05)

rep_ho

@rep_ho Einige - vielleicht viele - Statistiker, die mit Situationen befasst sind, in denen eine Vorhersage außerhalb der Stichprobe wichtig ist (und einige haben dies schon lange getan). Ideen wie Crossvalidation und ausgelassene Statistiken (zum Beispiel) gibt es schon seit Ewigkeiten. Statistiker neigen jedoch dazu, sich nicht nur einmal zu trennen, es sei denn, dies ist unvermeidlich. Es kann davon abhängen, mit welchen Statistikern Sie sprechen

Glen_b - Monica

Antworten:

Nicht alle statistischen Verfahren sind in Trainings- / Testdaten unterteilt, die auch als "Kreuzvalidierung" bezeichnet werden (obwohl das gesamte Verfahren etwas mehr beinhaltet).

Dies ist vielmehr eine Technik, die speziell verwendet wird, um Fehler außerhalb der Stichprobe zu schätzen . dh wie gut wird Ihr Modell neue Ergebnisse mithilfe eines neuen Datensatzes vorhersagen? Dies wird zu einem sehr wichtigen Problem, wenn Sie beispielsweise eine sehr große Anzahl von Prädiktoren im Verhältnis zur Anzahl der Stichproben in Ihrem Datensatz haben. In solchen Fällen ist es wirklich einfach, ein Modell mit einem großen Fehler in der Stichprobe zu erstellen, das jedoch aus einem Fehler in der Stichprobe schrecklich ist (als "Überanpassung" bezeichnet). In den Fällen, in denen Sie sowohl eine große Anzahl von Prädiktoren als auch eine große Anzahl von Stichproben haben, ist die Kreuzvalidierung ein notwendiges Instrument, um zu beurteilen, wie gut sich das Modell bei der Vorhersage neuer Daten verhält. Es ist auch ein wichtiges Werkzeug bei der Auswahl zwischen konkurrierenden Vorhersagemodellen.

Außerdem wird die Kreuzvalidierung fast immer nur verwendet, wenn versucht wird, ein Vorhersagemodell zu erstellen . Im Allgemeinen ist es für Modelle nicht sehr hilfreich, wenn Sie versuchen, die Wirkung einer Behandlung abzuschätzen. Wenn Sie beispielsweise die Verteilung der Zugfestigkeit zwischen den Materialien A und B vergleichen ("Behandlung" ist Materialtyp), ist keine Kreuzvalidierung erforderlich. während wir die Hoffnung machen , dass unsere Schätzung der Behandlungseffekt verallgemeinert der Probe aus, für die meisten Probleme klassische Theorie statistische diese (zB „Standardfehler“ von Schätzungen) beantworten kann mehr genau als Kreuzvalidierung. Leider klassische statistische Methodik ¹Denn Standardfehler halten bei Überanpassung nicht stand. Eine Kreuzvalidierung ist in diesem Fall oft viel besser.

Wenn Sie jedoch anhand von 10.000 Messgrößen, die Sie in ein Modell für maschinelles Lernen basierend auf 100.000 Beobachtungen einfügen, vorhersagen möchten, wann ein Material brechen wird, haben Sie große Probleme, ein großartiges Modell ohne Kreuzvalidierung zu erstellen!

Ich vermute, dass Sie bei vielen durchgeführten physikalischen Experimenten im Allgemeinen an der Abschätzung von Effekten interessiert sind. In diesen Fällen besteht nur ein sehr geringer Bedarf an Kreuzvalidierung.

¹ Man könnte argumentieren, dass Bayes'sche Methoden mit informativen Prioritäten eine klassische statistische Methode sind, die sich mit Überanpassung befasst. Aber das ist eine andere Diskussion.

Randnotiz: Während die Kreuzvalidierung zum ersten Mal in der Statistikliteratur erschien und definitiv von Personen verwendet wird, die sich selbst als Statistiker bezeichnen, ist sie zu einem grundlegend erforderlichen Werkzeug in der Community des maschinellen Lernens geworden. Viele Statistikmodelle funktionieren ohne Kreuzvalidierung gut, aber fast alle Modelle, die als "Vorhersagemodelle für maschinelles Lernen" gelten, müssen kreuzvalidiert werden, da sie häufig die Auswahl von Optimierungsparametern erfordern, was ohne Kreuz fast unmöglich ist -Validierung.

Cliff AB
quelle

n \approx p

$n \approx p$

@ usεr11852: Ja, aber es ist fast unmöglich, vernünftige Regularisierungsstrafen ohne Kreuzvalidierung zu wählen (außer über Strafen als Bayes'sche Priors nachzudenken, aber das ist bei Black-Box-Modellen schwierig!). Und obwohl wir möchten, dass unsere Ergebnisse beim Vergleich von A mit B außerhalb der Stichprobe liegen, ist dies normalerweise kein Problem, das eine Modelloptimierung erfordert (wie dies bei der Vorhersage häufig der Fall ist), und mit der relativ geringen Anzahl von Parametern kann die klassische statistische Theorie dies bewältigen ohne Kreuzvalidierung.

Cliff AB

Dies ist ein zirkuläres Argument. Bei der Regularisierung wird eine Kreuzvalidierung verwendet, bei der Regularisierung wird jedoch eine Kreuzvalidierung durchgeführt. Deshalb habe ich mich zunächst etwas dagegen ausgesprochen. Ich denke, statistische Inferenz / Kausalität entfernt sich von diesem Nicht-Modell-Tuning-Ansatz (siehe zum Beispiel 2016 Johansson et al. "Repräsentationen für kontrafaktische Inferenz lernen" - ein so chaotisch schönes Papier). Schließlich kann sich die Grundlagenphysikforschung, wenn sie vorgestellt wird, auch auf ML- Ansätze (z. B. die Higgs Boson Machine Learning Challenge ) stützen .

usεr11852 sagt Reinstate Monic

@ usεr11852 Bei der Regularisierung wird keine Kreuzvalidierung "verwendet", sondern Ihr Optimierungsparameter für die Regularisierung wird mithilfe der Kreuzvalidierung ausgewählt. Zum Beispiel siehe glment's cv.glmnetfür den gesamten Vorgang in einer schönen kompakten Funktion.

Cliff AB

Außerdem habe ich nie behauptet, dass die Physikforschung weder ML-Ansätze noch Kreuzvalidierung verwenden kann! Ich habe nur erklärt, dass die Kreuzvalidierung normalerweise speziell für die Auswahl zwischen komplexen Modellen / Abstimmungsparametern in Vorhersagemodellen verwendet wird und dass in vielen klassischen physikalischen Experimenten eine Kreuzvalidierung nicht erforderlich ist. Was Physiker mit diesen Daten machen, steht also nicht unbedingt im Widerspruch zu dem, was Statistiker mit diesen Daten machen würden, was meiner Meinung nach der Kern der Frage des OP war.

Cliff AB

Als (analytischer) Chemiker begegne ich beiden Ansätzen: der analytischen Berechnung von Verdienstzahlen [meist für univariate Regression] sowie der direkten Messung prädiktiver Verdienstzahlen.
Die Aufteilung von Zug und Test ist für mich der "kleine Bruder" eines Validierungsexperiments zur Messung der Vorhersagequalität.

Lange Antwort:

Die typischen Experimente, die wir zB in der physikalischen Chemie durchführen, verwenden eine univariate Regression. Die interessierende Eigenschaft sind häufig die Modellparameter, z. B. die Zeitkonstante bei der Messung der Reaktionskinetik, manchmal aber auch Vorhersagen (z. B. univariate lineare Kalibrierung zur Vorhersage / Messung eines interessierenden Werts).
Diese Situationen sind sehr harmlos in Bezug auf die Nichtüberanpassung: Nach der Schätzung aller Parameter verbleibt normalerweise eine komfortable Anzahl von Freiheitsgraden, und sie werden verwendet, um (wie in der Ausbildung) Schüler mit klassischer Konfidenz- oder Vorhersageintervallberechnung und klassischem Fehler zu schulen Vermehrung - sie wurden für diese Situationen entwickelt. Und selbst wenn die Situation nicht ganz lehrbuchartig ist (z. B. habe ich eine Struktur in meinen Daten, z. B. in der Kinetik, würde ich erwarten, dass die Daten besser durch Varianz zwischen Reaktionsläufen + Varianz zwischen Messungen in einem Lauf beschrieben werden als durch a Ich kann normalerweise genug Durchläufe des Experiments haben, um immer noch nützliche Ergebnisse zu erzielen.

$p$ $n$ $n < p$ $n$ $n$ $n$ $df$ funktionieren die klassischen Ansätze nicht. Da ich jedoch hauptsächlich Vorhersagen mache, habe ich immer eine sehr direkte Möglichkeit, die Vorhersagefähigkeit meines Modells zu messen: Ich mache Vorhersagen und vergleiche sie mit Referenzwerten.

Dieser Ansatz ist tatsächlich sehr leistungsfähig (obwohl er aufgrund des erhöhten experimentellen Aufwands kostspielig ist), da ich damit die Vorhersagequalität auch für Bedingungen untersuchen kann, die nicht in den Trainings- / Kalibrierungsdaten enthalten waren. ZB kann ich messen, wie sich die Vorhersagequalität durch Extrapolation verschlechtert (Extrapolation umfasst auch z. B. Messungen, die beispielsweise einen Monat nach der Erfassung der Trainingsdaten durchgeführt wurden), ich kann die Robustheit anhand von Störfaktoren untersuchen, die ich für wichtig halte usw. Mit anderen Worten können wir das Verhalten unseres Modells genauso untersuchen wie das Verhalten jedes anderen Systems: Wir untersuchen bestimmte Punkte oder stören es und betrachten die Änderung in der Antwort des Systems usw.

Ich würde sagen, je wichtiger die Vorhersagequalität ist (und je höher das Risiko einer Überanpassung ist), desto eher bevorzugen wir direkte Messungen der Vorhersagequalität gegenüber analytisch abgeleiteten Zahlen. (Natürlich hätten wir all diese Störfaktoren auch in die Gestaltung des Trainingsexperiments einbeziehen können). Einige Bereiche wie die medizinische Diagnostik erfordern die Durchführung geeigneter Validierungsstudien, bevor das Modell für echte Patienten "losgelassen" wird.

Die Aufteilung von Zug / Test (ob Hold * oder Kreuzvalidierung oder Out-of-Bootstrap oder ...) erleichtert diesen einen Schritt. Wir speichern das zusätzliche Experiment und extrapolieren es nicht (wir verallgemeinern nur die Vorhersage unbekannter unabhängiger Fälle mit derselben Verteilung der Trainingsdaten). Ich würde dies eher als Verifikation als als Validierung beschreiben (obwohl die Validierung hier tief in der Terminologie verankert ist). Dies ist oft der pragmatische Weg, wenn nicht zu hohe Anforderungen an die Genauigkeit der Leistungszahlen gestellt werden (sie müssen in einem Proof-of-Concept-Szenario möglicherweise nicht sehr genau bekannt sein).

* Verwechseln Sie nicht eine einzelne zufällige Aufteilung in Zug und Test mit einer ordnungsgemäß konzipierten Studie zur Messung der Vorhersagequalität.

cbeleites unterstützt Monica
quelle

+1, um auf den Unterschied bei der Überprüfung und Validierung hinzuweisen.

Prognostiker