Wenn Sie eine nichtlineare Funktion an eine Menge von Punkten anpassen (vorausgesetzt, es gibt nur eine Ordinate für jede Abszisse), kann das Ergebnis entweder sein:
- eine sehr komplexe Funktion mit kleinen Residuen
- eine sehr einfache Funktion mit großen Residuen
Kreuzvalidierung wird häufig verwendet, um den "besten" Kompromiss zwischen diesen beiden Extremen zu finden. Aber was heißt "am besten"? Ist es "am wahrscheinlichsten"? Wie würden Sie überhaupt anfangen zu beweisen, was die wahrscheinlichste Lösung ist?
Meine innere Stimme sagt mir, dass der Lebenslauf eine Art Minimal-Energie-Lösung findet. Dies lässt mich an Entropie denken, von der ich vage weiß, dass sie sowohl in der Statistik als auch in der Physik vorkommt.
Es scheint mir, dass die "beste" Anpassung durch Minimierung der Summe der Funktionen von Komplexität und Fehler erzeugt wird, d. H
minimising m where m = c(Complexity) + e(Error)
Ergibt das irgendeinen Sinn? Was wären die Funktionen c und e?
Kannst du bitte erklären, wenn du keine mathematische Sprache verwendest, da ich nicht viel Mathe verstehe.
Antworten:
Ich denke, das ist eine ausgezeichnete Frage. Ich werde es paraphieren, nur um sicherzugehen, dass ich es richtig verstanden habe:
Ich denke, die Antwort (falls es eine gibt) wird Sie weit über die reine Gegenprüfung hinausbringen. Mir gefällt, wie gut diese Frage (und das Thema im Allgemeinen) mit Ockhams Rasiermesser und dem allgemeinen Konzept der Sparsamkeit , das für die Wissenschaft von grundlegender Bedeutung ist, zusammenhängt. Ich bin kein Experte auf diesem Gebiet, aber ich finde diese Frage äußerst interessant. Der beste Text, den ich über diese Art von Fragen kenne, ist Universal Artificial Intelligence von Marcus Hutter (stellen Sie mir jedoch keine Fragen, ich habe das meiste nicht gelesen). Ich habe vor ein paar Jahren einen Vortrag von Hutter besucht und war sehr beeindruckt.
Sie haben Recht, wenn Sie glauben, dass es irgendwo ein Minimum-Entropie-Argument gibt (das in irgendeiner Weise für die Komplexitätsstraffunktion ). Hutter befürwortet die Verwendung von Kolmogorov-Komplexität anstelle von Entropie. Außerdem ist Hutters Definition von "best" (soweit ich mich erinnere) (informell) das Modell, das die Zukunft am besten vorhersagt (dh die Daten, die in Zukunft am besten beobachtet werden). Ich kann mich nicht erinnern, wie er diese Vorstellung formalisiert hat.c
quelle
Ich werde eine kurze intuitive Antwort anbieten (auf einer ziemlich abstrakten Ebene), bis eine bessere Antwort von jemand anderem angeboten wird:
Beachten Sie zunächst, dass komplexe Funktionen / Modelle eine bessere Anpassung erzielen (dh geringere Residuen aufweisen), da sie einige lokale Merkmale (Think Noise) des Datasets ausnutzen, die nicht global vorhanden sind (Think Systematic Patterns).
Zweitens, wenn wir eine Kreuzvalidierung durchführen, teilen wir die Daten in zwei Sätze auf: den Trainingssatz und den Validierungssatz.
Wenn wir eine Kreuzvalidierung durchführen, kann es sein, dass ein komplexes Modell nicht sehr gut vorhersagt, da ein komplexes Modell per Definition die lokalen Merkmale des Trainingssatzes ausnutzt. Die lokalen Merkmale des Trainingssatzes können sich jedoch stark von den lokalen Merkmalen des Validierungssatzes unterscheiden, was zu einer schlechten Vorhersageleistung führt. Daher neigen wir dazu, das Modell auszuwählen, das die globalen Merkmale des Trainings und die Validierungsdatensätze erfasst.
Zusammenfassend lässt sich sagen, dass die Kreuzvalidierung vor Überanpassung schützt, indem das Modell ausgewählt wird, das die globalen Muster des Datasets erfasst, und Modelle vermieden werden, die lokale Merkmale eines Datasets ausnutzen.
quelle
In einer allgemeinen Ansicht des maschinellen Lernens ist die Antwort ziemlich einfach: Wir möchten ein Modell erstellen, das die höchste Genauigkeit bei der Vorhersage neuer Daten aufweist (während des Trainings nicht sichtbar). Da wir dies nicht direkt testen können (wir haben keine Daten aus der Zukunft), simulieren wir einen solchen Test nach Monte Carlo - und dies ist im Grunde die Idee unter der Kreuzvalidierung.
Es kann einige Probleme hinsichtlich der Genauigkeit geben (z. B. kann ein Geschäftskunde angeben, dass ein Überschwingen 5 € pro Einheit und ein Unterschwingen 0,01 € pro Einheit kostet. Daher ist es besser, ein weniger genaues, aber besseres Unterschwingungsmodell zu erstellen), aber im Allgemeinen ist ziemlich intuitiv Prozent der wahren Antworten in der Klassifikation und weit verbreitete erklärten Varianz in der Regression.
quelle
Viele Leute haben ausgezeichnete Antworten, hier sind meine $ 0.02.
Es gibt zwei Möglichkeiten, "bestes Modell" oder "Modellauswahl" statistisch zu betrachten:
1 Eine möglichst einfache, aber keine einfachere Erklärung (Attrib. Einstein)
2 Vorhersage ist das Interesse, ähnlich der technischen Entwicklung.
Weitverbreitete (falsche) Vorstellung:
Die Modellauswahl entspricht der Auswahl des besten Modells
Zur Erklärung sollten wir aufpassen, dass es mehrere (ungefähr) gleich gute Erklärungsmodelle gibt. Einfachheit hilft sowohl bei der Vermittlung der im Modell enthaltenen Konzepte als auch bei der Verallgemeinerung, der Fähigkeit, in Szenarien zu arbeiten, die sich stark von den Szenarien unterscheiden, in denen das Modell untersucht wurde. Daher gibt es für einige Modelle eine Prämie.
Zur Vorhersage: (Dr. Ripleys) gute Analogie ist die Wahl zwischen Expertenmeinungen: Wenn Sie Zugang zu einer großen Gruppe von Experten haben, wie würden Sie deren Meinungen verwenden?
Die Kreuzvalidierung berücksichtigt den Vorhersageaspekt. Einzelheiten zum Lebenslauf finden Sie in dieser Präsentation von Dr. BD Ripley. Dr. Brian D. Ripleys Präsentation zur Modellauswahl
Zitat: Bitte beachten Sie, dass alles in dieser Antwort aus der oben zitierten Präsentation stammt. Ich bin ein großer Fan dieser Präsentation und ich mag es. Andere Meinungen können abweichen. Der Titel des Vortrags lautet: "Auswahl unter großen Klassen von Modellen" und wurde auf dem Symposium zu Ehren von John Nelders 80. Geburtstag, Imperial College, 29./30. März 2004, von Dr. Brian D. Ripley gehalten.
quelle
Gute Diskussion hier, aber ich denke an eine Kreuzvalidierung, die sich von den bisherigen Antworten unterscheidet (ich denke, mbq und ich sind auf derselben Seite). Also werde ich meine zwei Cent auf die Gefahr setzen, das Wasser zu trüben ...
Die Kreuzvalidierung ist eine statistische Methode zur Bewertung der Variabilität und Verzerrung aufgrund von Stichprobenfehlern bei der Fähigkeit eines Modells, Daten anzupassen und vorherzusagen. Somit wäre "am besten" das Modell, das den niedrigsten Verallgemeinerungsfehler liefert, und zwar in Einheiten von Variabilität und Verzerrung. Techniken wie Bayesian und Bootstrap Model Averaging können verwendet werden, um ein Modell auf algorithmische Weise basierend auf den Ergebnissen der Kreuzvalidierung zu aktualisieren.
Diese FAQ bietet gute Informationen für mehr Kontext, der meine Meinung mitteilt.
quelle
Die Fehlerfunktion ist der Fehler Ihres Modells (Funktion) auf den Trainingsdaten. Die Komplexität ist eine Norm (z. B. Quadrat-12-Norm) der Funktion, die Sie lernen möchten. Die Minimierung des Komplexitätsbegriffs begünstigt im Wesentlichen reibungslose Funktionen, die sich nicht nur auf die Trainingsdaten, sondern auch auf die Testdaten auswirken. Wenn Sie Ihre Funktion durch eine Reihe von Koeffizienten repräsentieren (z. B. wenn Sie eine lineare Regression durchführen), würde die Bestrafung der Komplexität durch die quadratische Norm zu kleinen Koeffizientenwerten in Ihrer Funktion führen (die Bestrafung anderer Normen führt zu unterschiedlichen Vorstellungen der Komplexitätskontrolle).
quelle
ist äquivalent zu
quelle