Ist die Vorhersage das „goldene Kriterium“, um die Fähigkeit von Statistikern zu beurteilen?

13

Ich habe letztes Wochenende Faraway's Lehrbuch Linearmodelle mit R (1. Auflage) gelesen . Faraway hatte ein Kapitel mit dem Titel "Statistische Strategie und Modellunsicherheit". Er beschrieb (Seite 158) , dass er künstlich einige Daten erzeugt ein sehr kompliziertes Modell, dann fragte er seine Studenten , die Daten zu modellieren und die Schüler vorhergesagten Ergebnisse vergleichen vs Leseergebnisse. Leider haben die meisten Schüler die Testdaten überpasst und die vorhergesagten Werte völlig falsch angegeben. Um dieses Phänomen zu erklären, schrieb er mir etwas sehr Beeindruckendes:

"Der Grund, warum die Modelle so unterschiedlich waren, war, dass die Schüler die verschiedenen Methoden in unterschiedlicher Reihenfolge anwendeten. Einige wählten Variablen vor der Transformation aus, andere umgekehrt. Einige wiederholten eine Methode, nachdem das Modell geändert wurde, andere nicht. Ich ging die Strategien durch dass einige der Schüler etwas benutzten und nichts eindeutig falsch finden konnten, was sie getan hatten. Ein Schüler machte einen Fehler bei der Berechnung seiner oder ihrer vorhergesagten Werte, aber im Rest war offensichtlich nichts falsch. Die Leistung bei dieser Aufgabe zeigte sich nicht eine Beziehung dazu in den Prüfungen. "

Ich wurde darauf hingewiesen, dass die Genauigkeit der Modellvorhersage das „goldene Kriterium“ für die Auswahl der besten Modellleistung ist. Wenn ich mich nicht irre, ist dies auch die beliebte Methode bei Kaggle-Wettbewerben. Doch hier stellte Faraway etwas anderes fest, als dass die Modellvorhersage-Leistung nichts zu tun haben könntemit der Fähigkeit des beteiligten Statistikers. Mit anderen Worten, ob wir das beste Modell in Bezug auf die Vorhersagekraft bauen können, hängt nicht wirklich davon ab, wie erfahren wir sind. Stattdessen wird es durch eine große "Modellunsicherheit" (blindes Glück?) Bestimmt. Meine Frage ist: Trifft dies auch auf die Datenanalyse im realen Leben zu? Oder war ich mit etwas sehr Grundlegendem verwechselt? Denn wenn dies zutrifft, ist die Auswirkung auf die Analyse realer Daten immens: Ohne das "reale Modell" hinter den Daten zu kennen, gibt es keinen wesentlichen Unterschied zwischen der Arbeit erfahrener / unerfahrener Statistiker: Beides sind nur wilde Vermutungen die Trainingsdaten zur Verfügung.

Bombyx Mori
quelle
2
+1 schöne Frage. Um einen anderen Blickwinkel zu bieten, sagt einer der Analysten, er kenne den wahren Modus - dann könnten auch ihre Vorhersagen schlecht sein! Selbst wenn Sie das reale Modell kennen, werden Sie dies sehen. Wichtig mag die Beobachtung von Haggerty und Srivinasans 1991 in Psychometrika sein, dass "die [...] Schlussfolgerung, dass ein Modell mit höherer Vorhersagegenauigkeit" wahrer "ist, keine gültige Schlussfolgerung ist".
Momo
1
Ich habe mir das Buch noch nicht angeschaut, aber "Variablenauswahl" & "Transformation" läuten schon Warnglocken. Siehe Algorithmen für die automatische Modellauswahl und Art der Beziehung zwischen Prädiktoren und Abhängigen in der Regression . Ich würde auch nicht die Prüfungsleistung von Statistikstudenten mit der realen Arbeitsfähigkeit von Statistikern in Verbindung bringen.
Scortchi - Wiedereinsetzung von Monica
2
Diese von Faraway gemachten Angaben scheinen furchtbar ungewöhnlich, um als Grundlage für ein umfassendes allgemeines Prinzip im Bereich der Statistik zu dienen. Ich möchte kein Modell über Vorhersagemodelle auf der Grundlage solcher nicht reproduzierbaren Beispiele aufbauen. Es ist auch möglich, dass sie, ob witzig oder nicht, von Kirschen gepflückt wurden.
Rolando2
3
Eine logisch stichhaltige Schlussfolgerung, die aus dieser Anekdote abgeleitet werden kann, ist, dass keiner von Faraways Schülern (noch) Fähigkeiten erworben hat, die für eine gute Leistung bei seinem Vorhersagetest erforderlich sind. Es ist schwierig, überhaupt einen Zusammenhang zwischen diesem Ergebnis und Ihren Spekulationen über die Leistung erfahrener Statistiker herzustellen.
whuber
@whuber: Ich denke nicht so. Ich bin damit einverstanden, dass 28 Schüler etwas klein sind, aber ich denke, dass diese echte Beobachtung einige schwerwiegende Auswirkungen hat. Wenn Faraway das wirkliche Modell machte und die Arbeit mehrerer Studenten durchlief, konnte er keinen schwerwiegenden Fehler finden, aber die Vorhersagen sind weit von dem entfernt, was sie sein sollten. Dies sagt etwas über die "Modellunsicherheit" aus, dass man zumindest die Arbeit eines separaten Analytikers benötigt, um die Unterschiede zu vergleichen, egal wie "erfahren" der ursprüngliche Analytiker ist. Ich denke, das ist ziemlich alarmierend für mich.
Bombyx Mori

Antworten:

1

Ich habe den Professor in meiner Abteilung danach gefragt. Er sagte ehrlich gesagt, er sei überhaupt nicht überrascht. Er schlug die folgende Sichtweise vor: Was Faraway tat, war nur ein einmaliges Experiment, und es ist nicht überraschend, dass die Ergebnisse keine Korrelation mit den Endnoten zu haben schienen. Aber wenn Faraway sein "Experiment" 100 Mal mit derselben Gruppe von Studenten wiederholt, ist er sicher, dass die Studenten, die gelernt haben, dass Statistiken besser abschneiden, ähnlich wie das Konfidenzintervall. Nach seiner Meinung ist Erfahrung wichtig, es ist nur ein einmaliges soziales Experiment, das aufgrund der Modellunsicherheit nicht gezeigt werden konnte.

Bombyx Mori
quelle
Ich finde diese Ausrede komisch. Ich denke, dies ist der Grund, warum Statistik durch "Data Science" ersetzt (oder in "Data Science" umbenannt) wird. Die Leute beginnen zu begreifen, dass Statistik an Universitäten nicht sehr gut prognostiziert werden kann und Modelle ohne Vorhersagekraft unbrauchbar sind.
Flunder
1
@Flounderer: Ich denke, das ist keine wirkliche Ausrede, und was Sie geschrieben haben, ist möglicherweise nicht wirklich gut mit diesem Fall verbunden. Erstens hat man im wirklichen Leben meistens sowohl ein Test-Set als auch ein Trainings-Set, im Gegensatz zu Faraway ist nur ein Trainings-Set verfügbar. Zweitens ist das Modell von Faraway stark nichtlinear, sodass Regressionsmethoden nicht sehr gut funktionieren. Daher sind alle linearen Modelle nur wilde Vermutungen. Die Moral des Experiments lautet: "Alle Modelle sind falsch" und nicht "Statistiken, wie sie an Universitäten gelehrt werden, können nicht sehr gut vorhergesagt werden".
Bombyx Mori
@Flounderer: Mit anderen Worten, ich glaube, wenn ich (oder irgendjemand im Forum) vor zwanzig Jahren in der Position eines weit entfernten Schülers bin, der sich diesem seltsamen Trainingsset gegenübersieht, ist es unwahrscheinlich, dass wir es besser machen, wenn wir nur lineare Modelle verwenden. Ich denke nicht, dass dies etwas mit "Statistik-wie-in-Universitäten gelehrt" zu tun hat.
Bombyx Mori
1

Die Modelle der Studenten waren fast alle überarbeitet. Mit n Datenpunkten kann man immer ein perfektes Polynom der Ordnung n-1 anpassen. Ein solches Modell ist überfällig und überlässt nichts dem Zufallsfehler. Es scheint, dass die Schüler ähnliche Überpassungsfehler gemacht haben, aber vermutlich mit unterschiedlichen Funktionen.

Überanpassung ist ein Fehler, der nur von Schülern gemacht werden sollte. Dies legt nahe, dass Erfahrung und Ausbildung notwendige Qualifikationen für die Modellierung sind.

Alison Wehr
quelle
2
"Überanpassung ist ein Fehler, der nur von Studenten gemacht werden sollte" ist ein ziemlich hoher Standard. Modellieren ist schwer. Vielleicht ist etwas wie "Überanpassung ist etwas, das Modellierer durch Erfahrung und Ausbildung erkennen und vermeiden lernen" der Wahrheit näher?
Matthew Drury