Was ist die Definition von "best", wie sie im Begriff "best fit" und Kreuzvalidierung verwendet wird?

16

Wenn Sie eine nichtlineare Funktion an eine Menge von Punkten anpassen (vorausgesetzt, es gibt nur eine Ordinate für jede Abszisse), kann das Ergebnis entweder sein:

  1. eine sehr komplexe Funktion mit kleinen Residuen
  2. eine sehr einfache Funktion mit großen Residuen

Kreuzvalidierung wird häufig verwendet, um den "besten" Kompromiss zwischen diesen beiden Extremen zu finden. Aber was heißt "am besten"? Ist es "am wahrscheinlichsten"? Wie würden Sie überhaupt anfangen zu beweisen, was die wahrscheinlichste Lösung ist?

Meine innere Stimme sagt mir, dass der Lebenslauf eine Art Minimal-Energie-Lösung findet. Dies lässt mich an Entropie denken, von der ich vage weiß, dass sie sowohl in der Statistik als auch in der Physik vorkommt.

Es scheint mir, dass die "beste" Anpassung durch Minimierung der Summe der Funktionen von Komplexität und Fehler erzeugt wird, d. H

minimising m where m = c(Complexity) + e(Error)

Ergibt das irgendeinen Sinn? Was wären die Funktionen c und e?

Kannst du bitte erklären, wenn du keine mathematische Sprache verwendest, da ich nicht viel Mathe verstehe.

Bart
quelle
1
Am besten ist das Modell mit dem geringsten zukünftigen Fehler, und die Kreuzvalidierung gibt Ihnen diese Schätzung. Der Grund für die Formeln c (Komplexität) + e (Fehler) liegt darin, dass Sie Fehler in den Trainingsdaten als Schätzwert für zukünftige Fehler verwenden können. Dies ist jedoch zu optimistisch. Fügen Sie daher einen Term hinzu, um diese Schätzung objektiv zu gestalten, was normalerweise eine Funktion von ist Komplexität des Modells
Jaroslaw Bulatow
Auf der anderen Seite lässt die Argumentation im Lichte des Runge-Phänomens (wieder Physik-Inspirationen) den Schluss zu, dass ein zukünftiger Fehler etwas mit Komplexität / Train_Error zu tun hat.
Matt Krause hat hier eine ausgezeichnete Antwort auf eine ähnliche Frage gegeben: stats.stackexchange.com/a/21925/14640 Um es auf den Punkt zu bringen : Das Ziel ist es, die Komplexität des Modells mit der Erklärungskraft des Modells in Einklang zu bringen, und daher ist das Konzept der Sparsamkeit besser Maß für die Angemessenheit eines Modells als das Konzept der besten Fehleranpassung. Dies liegt daran, dass ein hochkomplexes Modell die Daten überdecken kann, ohne neue Ergebnisse besser vorhersagen oder erklären zu können.
Assad Ebrahim

Antworten:

6

Ich denke, das ist eine ausgezeichnete Frage. Ich werde es paraphieren, nur um sicherzugehen, dass ich es richtig verstanden habe:

Es scheint, dass es viele Möglichkeiten gibt, die Komplexitätsstraffunktion und die Fehlerstraffunktion e zu wählen . Welche Wahl ist die beste? Was soll am besten noch heißen ?ce

Ich denke, die Antwort (falls es eine gibt) wird Sie weit über die reine Gegenprüfung hinausbringen. Mir gefällt, wie gut diese Frage (und das Thema im Allgemeinen) mit Ockhams Rasiermesser und dem allgemeinen Konzept der Sparsamkeit , das für die Wissenschaft von grundlegender Bedeutung ist, zusammenhängt. Ich bin kein Experte auf diesem Gebiet, aber ich finde diese Frage äußerst interessant. Der beste Text, den ich über diese Art von Fragen kenne, ist Universal Artificial Intelligence von Marcus Hutter (stellen Sie mir jedoch keine Fragen, ich habe das meiste nicht gelesen). Ich habe vor ein paar Jahren einen Vortrag von Hutter besucht und war sehr beeindruckt.

Sie haben Recht, wenn Sie glauben, dass es irgendwo ein Minimum-Entropie-Argument gibt (das in irgendeiner Weise für die Komplexitätsstraffunktion ). Hutter befürwortet die Verwendung von Kolmogorov-Komplexität anstelle von Entropie. Außerdem ist Hutters Definition von "best" (soweit ich mich erinnere) (informell) das Modell, das die Zukunft am besten vorhersagt (dh die Daten, die in Zukunft am besten beobachtet werden). Ich kann mich nicht erinnern, wie er diese Vorstellung formalisiert hat.c

Robby McKilliam
quelle
Du verstehst die Frage. Ich werde den Links folgen.
Bart
Sie sollten wissen, dass diese Links Sie wahrscheinlich nirgendwohin bringen werden, wo Sie "praktisch" sind. Wenn Sie versuchen , etwas mit Kreuzvalidierung (oder einer anderen Art der Modellauswahl) aufzubauen , ist es in der Praxis wahrscheinlich immer heuristisch und ein bisschen ad-hoc (obwohl ich zustimme, dass dies unbefriedigend ist).
Robby McKilliam
Jetzt kommen wir voran. en.wikipedia.org/wiki/Minimum_message_length scheint das zu sein, was ich gedacht habe. Vielen Dank!
Bart
Keine Bange. Dies ist nur eine Reflexion, nicht praktisch.
Bart
9

Ich werde eine kurze intuitive Antwort anbieten (auf einer ziemlich abstrakten Ebene), bis eine bessere Antwort von jemand anderem angeboten wird:

Beachten Sie zunächst, dass komplexe Funktionen / Modelle eine bessere Anpassung erzielen (dh geringere Residuen aufweisen), da sie einige lokale Merkmale (Think Noise) des Datasets ausnutzen, die nicht global vorhanden sind (Think Systematic Patterns).

Zweitens, wenn wir eine Kreuzvalidierung durchführen, teilen wir die Daten in zwei Sätze auf: den Trainingssatz und den Validierungssatz.

Wenn wir eine Kreuzvalidierung durchführen, kann es sein, dass ein komplexes Modell nicht sehr gut vorhersagt, da ein komplexes Modell per Definition die lokalen Merkmale des Trainingssatzes ausnutzt. Die lokalen Merkmale des Trainingssatzes können sich jedoch stark von den lokalen Merkmalen des Validierungssatzes unterscheiden, was zu einer schlechten Vorhersageleistung führt. Daher neigen wir dazu, das Modell auszuwählen, das die globalen Merkmale des Trainings und die Validierungsdatensätze erfasst.

Zusammenfassend lässt sich sagen, dass die Kreuzvalidierung vor Überanpassung schützt, indem das Modell ausgewählt wird, das die globalen Muster des Datasets erfasst, und Modelle vermieden werden, die lokale Merkmale eines Datasets ausnutzen.


quelle
@Srikant Ich weiß das alles. Der Lebenslauf ist ein Mittel, um das "Beste" zu finden. Was ist die Definition von "am besten"?
Bart
@bart 'bestes Modell' = Ein Modell, das globale Muster 'am besten' erfasst und dabei lokale Merkmale von Daten vermeidet. Das ist das Beste, was ich für eine nicht-mathematische Beschreibung tun kann. Vielleicht kann jemand anderes ein bisschen mehr ausarbeiten oder genauer sein.
@bart: "best" bedeutet die Funktion, die am besten zu den Trainingsdaten passt und die sich gut auf die Daten der Validierungs- / unsichtbaren Testsätze "verallgemeinert". Ich denke, das geht ganz klar aus Srikants Antwort hervor. Es gibt viele Möglichkeiten, ein gutes Generalisierungsverhalten formal zu definieren. In einem nicht-formalen Sinn kann man sich vorstellen, eine Funktion zu finden, die "glatt" und nicht sehr wackelig ist. Der Versuch, nur auf die Trainingsdaten zu passen, kann dazu führen, dass die Funktion verwackelt aussieht, wohingegen die Glätte normalerweise sicherstellt, dass die Funktion sowohl auf Trainings- als auch auf Validierungs- / Testdaten angemessen gut funktioniert.
Ebenholz1
@ebony: Sie verpassen den Punkt. Ich habe die Frage umformuliert, um es hoffentlich klarer zu machen
Bart
5

In einer allgemeinen Ansicht des maschinellen Lernens ist die Antwort ziemlich einfach: Wir möchten ein Modell erstellen, das die höchste Genauigkeit bei der Vorhersage neuer Daten aufweist (während des Trainings nicht sichtbar). Da wir dies nicht direkt testen können (wir haben keine Daten aus der Zukunft), simulieren wir einen solchen Test nach Monte Carlo - und dies ist im Grunde die Idee unter der Kreuzvalidierung.

Es kann einige Probleme hinsichtlich der Genauigkeit geben (z. B. kann ein Geschäftskunde angeben, dass ein Überschwingen 5 € pro Einheit und ein Unterschwingen 0,01 € pro Einheit kostet. Daher ist es besser, ein weniger genaues, aber besseres Unterschwingungsmodell zu erstellen), aber im Allgemeinen ist ziemlich intuitiv Prozent der wahren Antworten in der Klassifikation und weit verbreitete erklärten Varianz in der Regression.


quelle
3

Viele Leute haben ausgezeichnete Antworten, hier sind meine $ 0.02.

Es gibt zwei Möglichkeiten, "bestes Modell" oder "Modellauswahl" statistisch zu betrachten:

1 Eine möglichst einfache, aber keine einfachere Erklärung (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 Vorhersage ist das Interesse, ähnlich der technischen Entwicklung.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Weitverbreitete (falsche) Vorstellung:

Die Modellauswahl entspricht der Auswahl des besten Modells

Zur Erklärung sollten wir aufpassen, dass es mehrere (ungefähr) gleich gute Erklärungsmodelle gibt. Einfachheit hilft sowohl bei der Vermittlung der im Modell enthaltenen Konzepte als auch bei der Verallgemeinerung, der Fähigkeit, in Szenarien zu arbeiten, die sich stark von den Szenarien unterscheiden, in denen das Modell untersucht wurde. Daher gibt es für einige Modelle eine Prämie.

Zur Vorhersage: (Dr. Ripleys) gute Analogie ist die Wahl zwischen Expertenmeinungen: Wenn Sie Zugang zu einer großen Gruppe von Experten haben, wie würden Sie deren Meinungen verwenden?

Die Kreuzvalidierung berücksichtigt den Vorhersageaspekt. Einzelheiten zum Lebenslauf finden Sie in dieser Präsentation von Dr. BD Ripley. Dr. Brian D. Ripleys Präsentation zur Modellauswahl

Zitat: Bitte beachten Sie, dass alles in dieser Antwort aus der oben zitierten Präsentation stammt. Ich bin ein großer Fan dieser Präsentation und ich mag es. Andere Meinungen können abweichen. Der Titel des Vortrags lautet: "Auswahl unter großen Klassen von Modellen" und wurde auf dem Symposium zu Ehren von John Nelders 80. Geburtstag, Imperial College, 29./30. März 2004, von Dr. Brian D. Ripley gehalten.

suncoolsu
quelle
3

Gute Diskussion hier, aber ich denke an eine Kreuzvalidierung, die sich von den bisherigen Antworten unterscheidet (ich denke, mbq und ich sind auf derselben Seite). Also werde ich meine zwei Cent auf die Gefahr setzen, das Wasser zu trüben ...

Die Kreuzvalidierung ist eine statistische Methode zur Bewertung der Variabilität und Verzerrung aufgrund von Stichprobenfehlern bei der Fähigkeit eines Modells, Daten anzupassen und vorherzusagen. Somit wäre "am besten" das Modell, das den niedrigsten Verallgemeinerungsfehler liefert, und zwar in Einheiten von Variabilität und Verzerrung. Techniken wie Bayesian und Bootstrap Model Averaging können verwendet werden, um ein Modell auf algorithmische Weise basierend auf den Ergebnissen der Kreuzvalidierung zu aktualisieren.

Diese FAQ bietet gute Informationen für mehr Kontext, der meine Meinung mitteilt.

Josh Hemann
quelle
1

Die Fehlerfunktion ist der Fehler Ihres Modells (Funktion) auf den Trainingsdaten. Die Komplexität ist eine Norm (z. B. Quadrat-12-Norm) der Funktion, die Sie lernen möchten. Die Minimierung des Komplexitätsbegriffs begünstigt im Wesentlichen reibungslose Funktionen, die sich nicht nur auf die Trainingsdaten, sondern auch auf die Testdaten auswirken. Wenn Sie Ihre Funktion durch eine Reihe von Koeffizienten repräsentieren (z. B. wenn Sie eine lineare Regression durchführen), würde die Bestrafung der Komplexität durch die quadratische Norm zu kleinen Koeffizientenwerten in Ihrer Funktion führen (die Bestrafung anderer Normen führt zu unterschiedlichen Vorstellungen der Komplexitätskontrolle).

Ebenholz1
quelle
1

(p,q)1,λ>0

(1)EINrGMindest.β|λ,x,y||y-m(x,β)||p+λ||β||q

ist äquivalent zu

(2)EINrGMindest.β|λ,x,y||y-m(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)-(2)λβ^|λ

e()=||y-m(x,β)||pp=1p=2m()

user603
quelle
1
λ
@Robby:> danke. Ich habe den Text leicht angehängt, um die Unterscheidung zwischen Parametern und Hyperparametern zu verdeutlichen.
user603
@kwak: Es tut mir leid zu sagen, dass ich keine Ahnung habe, was das bedeutet. Was bedeuten die Symbole p, q, lambda, x, y, m und beta?
Bart
@bart:> Meine Antwort ist im Wesentlichen dieselbe wie die von Srikant. Wo er eine intuitive Erklärung liefert, wollte ich eine strengere hinzufügen, um den zukünftigen Besuchern Vorteile zu verschaffen, die die gleiche Frage haben wie Sie, aber mehr mit Mathematik vertraut sind als mit nichtformaler Sprache. Alle Symbole, die Sie erwähnen, sind in meiner Antwort definiert (obwohl dies wiederum formal erfolgt).
user603
@kwak: Wo ist zum Beispiel p definiert?
Bart