Die Prognoseleistung hängt mehr von der Expertise des Datenanalysten als von der Methode ab.

14

Ich bin auf ein Gerücht gestoßen, dass einige Studien gezeigt haben, dass die Leistung von Vorhersagemodellen mehr von der Expertise des Datenanalysten mit der gewählten Methode abhängt als von der Wahl der Methode.
Mit anderen Worten, die Behauptung ist, dass es wichtiger ist, dass der Datenanalyst mit der gewählten Methode vertraut ist, als wie "angemessen" die Methode für das Problem vom theoretischeren Standpunkt aus erscheint.

Dies wurde im Zusammenhang mit der Chemometrie erwähnt, die typischerweise Probleme mit vielen Variationen (100s - 1000s), multipler Kollinearität und natürlich zu wenig Proben beinhaltet. Die Vorhersage kann eine Klassifizierung oder eine Regression gewesen sein.

Meine persönliche Erfahrung legt nahe, dass dies plausibel ist , aber eine Studie wurde erwähnt (ich habe die Person, die dies erwähnt hat, nach einer schnellen, aber erfolglosen Suche per E-Mail gefragt, aber keine Antwort erhalten). Allerdings konnte ich auch bei einer aufwändigeren Suche keine Papiere finden.

Kennt jemand solche Erkenntnisse? Wenn nicht, was sagt die persönliche Erfahrung von Big Guys hier aus?

cbeleites unterstützt Monica
quelle
1
Ich bin hier eher ein kleiner Typ, aber was ich in Neural Networks gesehen habe, stützt diese Hypothese: Weit davon entfernt, ein "out of the box" -Werkzeug zu sein, bei dem "die Maschine etwas lernt", scheint eine erfolgreiche Klassifizierung oder Vorhersage von a abzuhängen viel darüber, wie schlau die Person ist, die dem Netzwerk sagt, wie man aus den Daten lernt - vor allem im Hinblick auf die Datenvorverarbeitung, aber auch im Hinblick auf die Netzwerkarchitektur usw.
S. Kolassa - Reinstate Monica
1
Ich denke, das ist Abbildung 2.4 aus den Elementen des statistischen Lernens, in der sie die nächsten Nachbarn mit Methoden des Regressionstyps vergleichen (und natürlich auch mehrere Vergleichspunkte im gesamten Buch bereitstellen).
StasK
@StasK: danke für die erinnerung (schade, dass ich mich nicht erinnere). Sie berichten auch, dass PCR, PLS und Ridge-Regression in der Praxis sehr ähnlich sind, ebenso wie LDA und logistische Regression. Letztere sind jedoch auch theoretisch sehr ähnlich.
cbeleites unterstützt Monica

Antworten:

1

Tatsächlich habe ich ein Gerücht gehört, dass anständige Lernmaschinen normalerweise besser sind als Experten, da die menschliche Neigung darin besteht, die Varianz auf Kosten der Verzerrung (Überglättung) zu minimieren, was zu einer schlechten Prognoseleistung in neuen Datensätzen führt. Die Maschine ist kalibriert, um MSE zu minimieren, und kann daher in Bezug auf die Vorhersage in einem neuen Datensatz besser abschneiden .

guest47
quelle
1
Nach meiner Erfahrung ist es sicherlich wahr, dass Menschen dazu neigen, sich zu überanstrengen. Meiner Erfahrung nach brauchen Sie jedoch auch einen anständigen Experten, der die nicht überpassende Lernmaschine auswählt. Ansonsten wählt jemand einfach eine Lernmaschine, die überpasst.
cbeleites unterstützt Monica
1
MSE schützt im Allgemeinen nicht vor Überanpassung, es sei denn, Sie schränken das Modell stark ein - und der Experte kommt wieder herein. Trotzdem wird versucht, zB Modell-Hyperparameter zu optimieren. Besonders iterative Optimierungsstrategien passen über (MSE oder nicht), es sei denn, Sie können sich für jede Iteration einen völlig neuen Satz unabhängiger Testdaten leisten. Vielleicht sollte ich sagen, dass ich aus einem Bereich komme, in dem Testfälle sehr selten sind. Und auf jeden Fall können Sie argumentieren, dass dies keine anständige Lernmaschine ist.
cbeleites unterstützt Monica