Ich bin ein Physikstudent, der maschinelles Lernen / Datenwissenschaft studiert, daher meine ich nicht, dass diese Frage Konflikte auslöst :) Ein großer Teil eines Physik-Bachelor-Programms besteht jedoch darin, Labore / Experimente durchzuführen, was eine Menge Daten bedeutet Verarbeitung und statistische Analyse. Ich bemerke jedoch einen starken Unterschied zwischen der Art und Weise, wie Physiker mit Daten umgehen, und der Art und Weise, wie meine datenwissenschaftlichen / statistischen Lernbücher mit Daten umgehen.
Der Hauptunterschied besteht darin, dass beim Versuch, Regressionen für Daten aus physikalischen Experimenten durchzuführen, die Regressionsalgorithmen auf den GANZEN Datensatz angewendet werden und es absolut keine Aufteilung in Trainings- und Testsätze gibt. In der Welt der Physik wird das R ^ 2 oder eine Art von Pseudo-R ^ 2 für das Modell basierend auf dem gesamten Datensatz berechnet. In der Statistikwelt werden die Daten fast immer in 80-20, 70-30 usw. aufgeteilt, und dann wird das Modell anhand des Testdatensatzes bewertet.
Es gibt auch einige wichtige physikalische Experimente (ATLAS, BICEP2 usw.), bei denen diese Daten niemals aufgeteilt werden. Ich frage mich daher, warum es einen so starken Unterschied zwischen der Art und Weise, wie Physiker / Experimentatoren Statistiken erstellen, und der Art und Weise, wie Datenwissenschaftler arbeiten Statistiken machen.
quelle
Antworten:
Nicht alle statistischen Verfahren sind in Trainings- / Testdaten unterteilt, die auch als "Kreuzvalidierung" bezeichnet werden (obwohl das gesamte Verfahren etwas mehr beinhaltet).
Dies ist vielmehr eine Technik, die speziell verwendet wird, um Fehler außerhalb der Stichprobe zu schätzen . dh wie gut wird Ihr Modell neue Ergebnisse mithilfe eines neuen Datensatzes vorhersagen? Dies wird zu einem sehr wichtigen Problem, wenn Sie beispielsweise eine sehr große Anzahl von Prädiktoren im Verhältnis zur Anzahl der Stichproben in Ihrem Datensatz haben. In solchen Fällen ist es wirklich einfach, ein Modell mit einem großen Fehler in der Stichprobe zu erstellen, das jedoch aus einem Fehler in der Stichprobe schrecklich ist (als "Überanpassung" bezeichnet). In den Fällen, in denen Sie sowohl eine große Anzahl von Prädiktoren als auch eine große Anzahl von Stichproben haben, ist die Kreuzvalidierung ein notwendiges Instrument, um zu beurteilen, wie gut sich das Modell bei der Vorhersage neuer Daten verhält. Es ist auch ein wichtiges Werkzeug bei der Auswahl zwischen konkurrierenden Vorhersagemodellen.
Außerdem wird die Kreuzvalidierung fast immer nur verwendet, wenn versucht wird, ein Vorhersagemodell zu erstellen . Im Allgemeinen ist es für Modelle nicht sehr hilfreich, wenn Sie versuchen, die Wirkung einer Behandlung abzuschätzen. Wenn Sie beispielsweise die Verteilung der Zugfestigkeit zwischen den Materialien A und B vergleichen ("Behandlung" ist Materialtyp), ist keine Kreuzvalidierung erforderlich. während wir die Hoffnung machen , dass unsere Schätzung der Behandlungseffekt verallgemeinert der Probe aus, für die meisten Probleme klassische Theorie statistische diese (zB „Standardfehler“ von Schätzungen) beantworten kann mehr genau als Kreuzvalidierung. Leider klassische statistische Methodik 1Denn Standardfehler halten bei Überanpassung nicht stand. Eine Kreuzvalidierung ist in diesem Fall oft viel besser.
Wenn Sie jedoch anhand von 10.000 Messgrößen, die Sie in ein Modell für maschinelles Lernen basierend auf 100.000 Beobachtungen einfügen, vorhersagen möchten, wann ein Material brechen wird, haben Sie große Probleme, ein großartiges Modell ohne Kreuzvalidierung zu erstellen!
Ich vermute, dass Sie bei vielen durchgeführten physikalischen Experimenten im Allgemeinen an der Abschätzung von Effekten interessiert sind. In diesen Fällen besteht nur ein sehr geringer Bedarf an Kreuzvalidierung.
1 Man könnte argumentieren, dass Bayes'sche Methoden mit informativen Prioritäten eine klassische statistische Methode sind, die sich mit Überanpassung befasst. Aber das ist eine andere Diskussion.
Randnotiz: Während die Kreuzvalidierung zum ersten Mal in der Statistikliteratur erschien und definitiv von Personen verwendet wird, die sich selbst als Statistiker bezeichnen, ist sie zu einem grundlegend erforderlichen Werkzeug in der Community des maschinellen Lernens geworden. Viele Statistikmodelle funktionieren ohne Kreuzvalidierung gut, aber fast alle Modelle, die als "Vorhersagemodelle für maschinelles Lernen" gelten, müssen kreuzvalidiert werden, da sie häufig die Auswahl von Optimierungsparametern erfordern, was ohne Kreuz fast unmöglich ist -Validierung.
quelle
glment
'scv.glmnet
für den gesamten Vorgang in einer schönen kompakten Funktion.Als (analytischer) Chemiker begegne ich beiden Ansätzen: der analytischen Berechnung von Verdienstzahlen [meist für univariate Regression] sowie der direkten Messung prädiktiver Verdienstzahlen.
Die Aufteilung von Zug und Test ist für mich der "kleine Bruder" eines Validierungsexperiments zur Messung der Vorhersagequalität.
Lange Antwort:
Die typischen Experimente, die wir zB in der physikalischen Chemie durchführen, verwenden eine univariate Regression. Die interessierende Eigenschaft sind häufig die Modellparameter, z. B. die Zeitkonstante bei der Messung der Reaktionskinetik, manchmal aber auch Vorhersagen (z. B. univariate lineare Kalibrierung zur Vorhersage / Messung eines interessierenden Werts).
Diese Situationen sind sehr harmlos in Bezug auf die Nichtüberanpassung: Nach der Schätzung aller Parameter verbleibt normalerweise eine komfortable Anzahl von Freiheitsgraden, und sie werden verwendet, um (wie in der Ausbildung) Schüler mit klassischer Konfidenz- oder Vorhersageintervallberechnung und klassischem Fehler zu schulen Vermehrung - sie wurden für diese Situationen entwickelt. Und selbst wenn die Situation nicht ganz lehrbuchartig ist (z. B. habe ich eine Struktur in meinen Daten, z. B. in der Kinetik, würde ich erwarten, dass die Daten besser durch Varianz zwischen Reaktionsläufen + Varianz zwischen Messungen in einem Lauf beschrieben werden als durch a Ich kann normalerweise genug Durchläufe des Experiments haben, um immer noch nützliche Ergebnisse zu erzielen.
Dieser Ansatz ist tatsächlich sehr leistungsfähig (obwohl er aufgrund des erhöhten experimentellen Aufwands kostspielig ist), da ich damit die Vorhersagequalität auch für Bedingungen untersuchen kann, die nicht in den Trainings- / Kalibrierungsdaten enthalten waren. ZB kann ich messen, wie sich die Vorhersagequalität durch Extrapolation verschlechtert (Extrapolation umfasst auch z. B. Messungen, die beispielsweise einen Monat nach der Erfassung der Trainingsdaten durchgeführt wurden), ich kann die Robustheit anhand von Störfaktoren untersuchen, die ich für wichtig halte usw. Mit anderen Worten können wir das Verhalten unseres Modells genauso untersuchen wie das Verhalten jedes anderen Systems: Wir untersuchen bestimmte Punkte oder stören es und betrachten die Änderung in der Antwort des Systems usw.
Ich würde sagen, je wichtiger die Vorhersagequalität ist (und je höher das Risiko einer Überanpassung ist), desto eher bevorzugen wir direkte Messungen der Vorhersagequalität gegenüber analytisch abgeleiteten Zahlen. (Natürlich hätten wir all diese Störfaktoren auch in die Gestaltung des Trainingsexperiments einbeziehen können). Einige Bereiche wie die medizinische Diagnostik erfordern die Durchführung geeigneter Validierungsstudien, bevor das Modell für echte Patienten "losgelassen" wird.
Die Aufteilung von Zug / Test (ob Hold * oder Kreuzvalidierung oder Out-of-Bootstrap oder ...) erleichtert diesen einen Schritt. Wir speichern das zusätzliche Experiment und extrapolieren es nicht (wir verallgemeinern nur die Vorhersage unbekannter unabhängiger Fälle mit derselben Verteilung der Trainingsdaten). Ich würde dies eher als Verifikation als als Validierung beschreiben (obwohl die Validierung hier tief in der Terminologie verankert ist). Dies ist oft der pragmatische Weg, wenn nicht zu hohe Anforderungen an die Genauigkeit der Leistungszahlen gestellt werden (sie müssen in einem Proof-of-Concept-Szenario möglicherweise nicht sehr genau bekannt sein).
* Verwechseln Sie nicht eine einzelne zufällige Aufteilung in Zug und Test mit einer ordnungsgemäß konzipierten Studie zur Messung der Vorhersagequalität.
quelle