Ich habe den folgenden Ausdruck schon einmal gehört:
"Optimierung ist die Wurzel allen Übels in der Statistik".
Die beste Antwort in diesem Thread gibt diese Aussage beispielsweise in Bezug auf die Gefahr einer zu aggressiven Optimierung bei der Modellauswahl wieder.
Meine erste Frage lautet wie folgt: Kann dieses Zitat jemand anderem zugeschrieben werden? (zB in der Statistikliteratur)
Soweit ich weiß, bezieht sich die Aussage auf die Risiken einer Überanpassung. Traditionelle Erkenntnisse besagen, dass eine korrekte Kreuzvalidierung bereits gegen dieses Problem vorgeht, aber es sieht so aus, als gäbe es bei diesem Problem noch mehr.
Sollten Statistiker und ML-Praktiker vorsichtig sein, ihre Modelle zu optimieren, selbst wenn sie strenge Kreuzvalidierungsprotokolle einhalten (z. B. 100 verschachtelte 10-fache CV)? Wenn ja, woher wissen wir, wann wir aufhören müssen, nach dem "besten" Modell zu suchen?
quelle
Antworten:
Das Zitat ist eine Umschreibung eines Donald Knuth-Zitats , das er Hoare selbst zuschrieb. Drei Auszüge aus der obigen Seite:
Ich weiß nicht, dass ich mit der Statistik-Umschreibung * einverstanden bin. In der Statistik gibt es jede Menge "Böses", das nichts mit Optimierung zu tun hat.
Ich denke, das Entscheidende ist, die Eigenschaften der von Ihnen durchgeführten Verfahren vollständig (oder so vollständig wie möglich) zu verstehen.
quelle
Eine Reihe von Möglichkeiten, wie Sie das Zitat (in Statistiken) analysieren können, vorausgesetzt, die Optimierung bezieht sich auf die (datenbasierte) Modellauswahl:
quelle