Messungen der Modellkomplexität

19

Wie können wir die Komplexität zweier Modelle mit der gleichen Anzahl von Parametern vergleichen?

Edit 09/19 : Um zu verdeutlichen, ist die Modellkomplexität ein Maß dafür, wie schwierig es ist, aus begrenzten Daten zu lernen. Wenn zwei Modelle zu vorhandenen Daten gleich gut passen, führt ein Modell mit geringerer Komplexität zu einem geringeren Fehler bei zukünftigen Daten. Wenn Annäherungen verwendet werden, ist dies möglicherweise technisch nicht immer der Fall, aber dies ist in Ordnung, wenn dies in der Praxis der Fall ist. Verschiedene Näherungen ergeben unterschiedliche Komplexitätsmaße

Jaroslaw Bulatow
quelle
Können Sie weitere Informationen darüber geben, welche Attribute für die Modelle verfügbar sind?
Shabbychef
Dies ist eine offene Frage. Meine Frage wäre also: Welche Attribute muss ich haben, um die Komplexität messen zu können? Auf der untersten Ebene ist ein Wahrscheinlichkeitsmodell ein Satz von Wahrscheinlichkeitsverteilungen, und ich passe das Modell auf Daten , die durch das am besten passende Mitglied Kommissionierung
Yaroslav Bulatov
3
Was genau ist "Komplexität"? (Dies ist keine leichtfertige Frage!) Da es keine formale Definition gibt, können wir nicht hoffen, gültige Vergleiche von etwas anstellen zu können.
whuber
Das ist, was ich im Wesentlichen
Yaroslav Bulatov
2
Aber können Sie uns nicht wenigstens einen Hinweis geben, welchen Aspekt eines Modells Sie mit dem Wort "Komplexität" erfassen möchten? Ohne das ist diese Frage einfach zu mehrdeutig, um eine vernünftige Antwort zuzulassen.
Whuber

Antworten:

12

Neben den verschiedenen Maßen für die minimale Beschreibungslänge (z. B. normalisierte maximale Wahrscheinlichkeit, Fisher Information Approximation) gibt es zwei weitere erwähnenswerte Methoden:

  1. Parametrischer Bootstrap . Es ist viel einfacher zu implementieren als die anspruchsvollen MDL-Maßnahmen. Ein schönes Papier stammt von Wagenmaker und Kollegen:
    Wagenmakers, E.-J., Ratcliff, R., Gomez, P. & Iverson, GJ (2004). Bewertung der Modellnachahmung mithilfe des parametrischen Bootstraps . Journal of Mathematical Psychology , 48, 28-50.
    Die Zusammenfassung:

    Wir präsentieren ein allgemeines Stichprobenverfahren zur Quantifizierung der Modellnachahmung, definiert als die Fähigkeit eines Modells, Daten zu berücksichtigen, die von einem konkurrierenden Modell generiert werden. Dieses Stichprobenverfahren, das als parametrisches Bootstrap-Cross-Fit-Verfahren bezeichnet wird (PBCM; vgl. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), erzeugt Verteilungen von Unterschieden in der Anpassungsgüte erwartet unter jedem der konkurrierenden Modelle. In der dateninformierten Version des PBCM weisen die generierenden Modelle spezifische Parameterwerte auf, die durch Anpassen der betrachteten experimentellen Daten erhalten werden. Die dateninformierten Differenzverteilungen können mit den beobachteten Unterschieden in der Anpassungsgüte verglichen werden, um eine Quantifizierung der Modelladäquanz zu ermöglichen. In der nicht informierten Datenversion des PBCM Die generierenden Modelle haben einen relativ breiten Bereich von Parameterwerten, der auf Vorwissen basiert. Die Anwendung sowohl der informierten als auch der nicht informierten PBCM-Daten wird anhand mehrerer Beispiele veranschaulicht.

    Update: Bewertung der Modellnachahmung in Klartext. Sie nehmen eines der beiden konkurrierenden Modelle und wählen nach dem Zufallsprinzip einen Parametersatz für dieses Modell aus (entweder Daten informiert oder nicht). Anschließend erstellen Sie Daten aus diesem Modell mit dem ausgewählten Parametersatz. Als Nächstes lassen Sie beide Modelle zu den erstellten Daten passen und prüfen, welches der beiden Kandidatenmodelle die bessere Anpassung ergibt. Wenn beide Modelle gleichermaßen flexibel oder komplex sind, sollte das Modell, aus dem Sie die Daten erstellt haben, besser passen. Wenn das andere Modell jedoch komplexer ist, kann es eine bessere Anpassung ergeben, obwohl die Daten aus dem anderen Modell erstellt wurden. Sie wiederholen dies mehrmals mit beiden Modellen (dh lassen Sie beide Modelle Daten produzieren und schauen Sie, welches der beiden Modelle besser passt). Das Modell, das die vom anderen Modell erzeugten Daten "überpasst", ist das komplexere.

  2. Cross-Validation : Die Implementierung ist ebenfalls recht einfach. Siehe die Antworten auf diese Frage . Es ist jedoch zu beachten, dass das Problem darin besteht, dass die Auswahl unter den Stichproben-Schneideregeln (Auslassen, K-fach usw.) nicht prinzipiell ist.

Henrik
quelle
Ich verstehe "Modell-Mimikry" nicht wirklich, aber die Kreuzvalidierung scheint die Bewertung der Komplexität nur zu verschieben. Wenn Sie Daten verwenden, um Ihre Parameter und Ihr Modell wie bei der Kreuzvalidierung auszuwählen, lautet die relevante Frage, wie die Datenmenge geschätzt werden soll, die für eine gute Leistung dieses "Meta" -Einrichters erforderlich ist
Yaroslav Bulatov,
@ Jaroslaw: Ich verstehe Ihr Problem mit der Kreuzvalidierung nicht wirklich, aber um ehrlich zu sein, bin ich dort kein Experte. Ich möchte jedoch wirklich darauf hinweisen, die Modellnachahmung zu messen. Daher siehe meine aktualisierte Antwort.
Henrik
4

Ich denke, es würde vom tatsächlichen Modellanpassungsverfahren abhängen. Für eine allgemein anwendbare Messung können Sie die in Ye 1998 beschriebenen Allgemeinen Freiheitsgrade in Betracht ziehen - im Wesentlichen die Empfindlichkeit der Änderung von Modellschätzungen gegenüber Störungen von Beobachtungen -, die als Maß für die Modellkomplexität durchaus gut funktioniert.

ars
quelle
Hm ... in der Arbeit dreht sich alles um Regression. Ich frage mich, ob dies für eine diskrete Wahrscheinlichkeitsschätzung verwendet werden kann. Außerdem verstehe ich die Motivation, die er dafür gibt, nicht wirklich - gdf ist ein Grad an Sensibilität der Parameter für kleine Datenänderungen, aber warum ist das wichtig? Ich könnte eine andere Parametrisierung wählen, bei der kleine Änderungen der Parameter in der ursprünglichen Parametrisierung großen Änderungen in der neuen Parametrisierung entsprechen, so dass es datenempfindlicher erscheint, aber es ist das gleiche Modell
Yaroslav Bulatov
Jaroslaw:> * Ich könnte eine andere Parametrisierung wählen, bei der kleine Änderungen der Parameter in der ursprünglichen Parametrisierung großen Änderungen in der neuen Parametrisierung entsprechen, sodass es datenempfindlicher erscheint. * Können Sie ein Beispiel nennen (mit einem affinen Äquivariantenschätzer)? Vielen Dank,
user603
1
DoF in linearer Regression berechnet sich nach der Spur der Hutmatrix oder der Summe der Empfindlichkeiten - die Motivation / das Konzept ist also nicht allzu weit entfernt. Tibshirani & Knight haben ein Kriterium für die Covarianzinflation vorgeschlagen, bei dem Kovarianzen von Modellschätzungen anstelle von Sensitivitäten untersucht werden. GDF scheint in einer Reihe von Modellprozeduren wie Cart- und Wavelet-Thresholding (Yes Artikel zur adaptiven Modellauswahl enthält weitere Details) und in Ensemble-Methoden zur Kontrolle der Komplexität angewendet worden zu sein, aber ich kenne keine diskreten Schätzungsfälle. Könnte einen Versuch wert sein ...
ars
Wissen Sie nicht über "affine Äquivariantenschätzer", aber nehmen Sie an, wir stützen uns stattdessen auf den Maximum-Likelihood-Schätzer. Sei q = f (p), wobei f eine Bijektion ist. Es sei p0, q0 die MLE-Schätzung in der entsprechenden Parametrisierung. p0, q0 werden unterschiedliche asymptotische Varianzen aufweisen, aber in Bezug auf die Modellierungsdaten sind sie äquivalent. Es stellt sich also die Frage, in welcher Parametrisierung die Sensitivität der Parameter für das erwartete Risiko repräsentativ ist.
Yaroslav Bulatov
4

Die Mindestbeschreibungslänge (MDL) und die Mindestnachrichtenlänge (MML) sollten unbedingt überprüft werden.

Für MDL ist ein einfaches Papier, das das Verfahren der normalisierten maximalen Wahrscheinlichkeit (NML) sowie die asymptotische Approximation veranschaulicht:

S. de Rooij & P. ​​Grünwald. Eine empirische Studie zur Auswahl von Modellen mit minimaler Beschreibungslänge und unendlicher parametrischer Komplexität. Journal of Mathematical Psychology, 2006, 50, 180-192

Hier betrachten sie die Modellkomplexität einer geometrischen vs. einer Poisson-Verteilung. Ein exzellentes (kostenloses) Tutorial zu MDL finden Sie hier .

Alternativ finden Sie hier eine Arbeit zur Komplexität der Exponentialverteilung, die sowohl mit MML als auch mit MDL untersucht wurde . Leider gibt es kein aktuelles Tutorial zu MML, aber das Buch ist eine hervorragende Referenz und sehr zu empfehlen.

emakalisch
quelle
1
Ich habe dieses Papier gelesen und es scheint, als ob die stochastische Komplexität das Problem behebt, nicht zwischen Modellen gleicher Abmessungen unterscheiden zu können, sondern das Problem, manchmal nicht zwischen Modellen unterschiedlicher Abmessungen unterscheiden zu können. Der geometrischen Verteilung wird eine unendliche Komplexität zugewiesen, sicherlich nicht das, was wir für ein so einfaches Modell erwarten würden!
Yaroslav Bulatov
Sehr guter Punkt zur unendlichen stochastischen Komplexität (SC). Lösungen für das Problem der unendlichen SC existieren, sind aber nicht sehr elegant; Die Renormalisierung von Rissanen funktioniert gut in linearen Modellen, ist jedoch für das Poisson / Geometric-Problem nicht einfach durchzuführen. Die MML- (oder SMML-) Codierung von Poisson / Geometric-Daten ist jedoch in Ordnung.
Emakalic
3

Die Mindestbeschreibungsdauer kann ein Weg sein, den es sich zu beschreiten lohnt.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
2
Nur eine kurze Anmerkung: Die minimale Beschreibungslänge ist sehr leistungsfähig und nützlich, aber es kann Ewigkeiten dauern, bis Ergebnisse erzielt werden, insbesondere, wenn die normalisierte maximale Wahrscheinlichkeit mit geringfügig größeren Datensätzen verwendet wird. Ich habe einmal 10 Tage lang FORTRAN-Code ausgeführt, um ihn für nur ein Modell zu erhalten
Dave Kellen
2

Mit "Modellkomplexität" ist üblicherweise die Fülle des Modellraums gemeint. Beachten Sie, dass diese Definition nicht von Daten abhängt. Bei linearen Modellen wird die Fülle des Modellraums trivial mit der Verkleinerung des Raums gemessen. Dies ist, was einige Autoren die "Freiheitsgrade" nennen (obwohl die Freiheitsgrade historisch für den Unterschied zwischen dem Modellraum und dem Probenraum reserviert waren). Für nichtlineare Modelle ist die Quantifizierung der Raumfülle weniger trivial. Die verallgemeinerten Freiheitsgrade (siehe Antwort von ars) sind eine solche Maßnahme. Es ist in der Tat sehr allgemein und kann für jeden "seltsamen" Modellraum wie Bäume, KNN und dergleichen verwendet werden. Die VC-Dimension ist ein weiteres Maß.

Wie oben erwähnt, ist diese Definition von "Komplexität" datenunabhängig. Daher haben zwei Modelle mit der gleichen Anzahl von Parametern normalerweise die gleiche "Komplexität".

JohnRos
quelle
1

Aus Jaroslaws Kommentaren zu Henriks Antwort:

Eine gegenseitige Validierung scheint jedoch die Bewertung der Komplexität nur zu verschieben. Wenn Sie Daten verwenden, um Ihre Parameter und Ihr Modell wie bei der Kreuzvalidierung auszuwählen, wird die relevante Frage lauten, wie Sie die Datenmenge schätzen, die dieser "Meta" -Fitter für eine gute Leistung benötigt

Ich frage mich, ob dies an sich nicht informativ ist. Sie führen mehrerek-facher Lebenslauf mit Variation k (entlang eines Rasters sagen) und schauen, welches Modell besser abschneidet als ksteigt. Genauer gesagt: Ich frage mich, ob sich die beiden Modelle dort unterscheidenCV(k) Leistung in Abhängigkeit von k kann als Beweis dafür herangezogen werden, dass dieses Modell (dasjenige, dessen relative Leistung weniger abnimmt, wenn k erhöht) wäre die weniger komplexe.

Sie könnten diesem Aspekt sogar eine „Bedeutung“ geben, da das Ergebnis des Verfahrens direkt in Form von (Einheiten) Unterschieden in Bezug auf Prognosefehler außerhalb der Stichprobe ausgedrückt wird.

user603
quelle
1
Ich würde zustimmen, dass die Kreuzvalidierung das Problem der Messung der Modellkomplexität löst. Vielleicht stelle ich die falsche Frage, denn eine praktische Frage ist die Beispielkomplexität des Anpassungsverfahrens. Kreuzvalidierte Lernende würden verschiedene Modelle ausprobieren und das Modell mit dem geringsten Kreuzvalidierungsfehler auswählen. Nun stellt sich die Frage, ob dieser Lernende mit größerer Wahrscheinlichkeit überanpassungsfähig ist als einer, der mit maximaler Wahrscheinlichkeit zu einem einzelnen Modell passt.
Yaroslav Bulatov,
Jaroslaw Bulatow:> Ja, aber Sie können ML nur zum Vergleichen verschachtelter Modelle verwenden. Sofern Sie (in Ihrer Frage) genannte Modelle mit der gleichen Anzahl von Parametern angegeben haben, können diese nicht verschachtelt werden.
user603
Ein weiteres Problem ist, dass die Kreuzvalidierung nicht zu unserem Verständnis der Modellkomplexität beiträgt. Maßnahmen wie AIC / BIC machen deutlich, dass viele Parameter zur Überanpassung anregen. Nun stellt sich die Frage: Welche Aspekte des Modells erhöhen neben der Dimension die Fähigkeit zur Überanpassung?
Yaroslav Bulatov
Jaroslaw: Wieder ein sehr guter Punkt.
user603
Wenn eine Überanpassung die Tendenz einer Modellanpassungsprozedur ist, zusätzlich zum Signal Rauschen anzupassen, können wir anhand einer bestimmten Prozedur feststellen, wo solche Tendenzen auftreten können. Vielleicht konnte ich mich aus Unwissenheit oder mangelnder Vorstellungskraft nicht auf etwas beschränken, das nicht als "Anzahl der Parameter" (oder "effektive Anzahl der Parameter") ausgedrückt werden kann. Wir könnten dies auf den Kopf stellen und fragen: Alles andere ist gleich, was passiert, wenn wir Rauschen in unsere Daten einbringen? Dann kommen wir zu Maßnahmen wie Yes GDF.
ars
0

Was ist mit dem Informationskriterium für den Modellvergleich? Siehe z http://en.wikipedia.org/wiki/Akaike_information_criterion

Modellkomplexität ist hier die Anzahl der Parameter des Modells.

Brause42
quelle
AIC ist kein Maß für die Modellkomplexität.
Sven Hohenstein
@SvenHohenstein, aus seinem letzten Satz entnehme ich, dass er nicht vorschlägt, dass der AIC selbst ein Maß für die Komplexität des Modells ist. Brause42, beachten Sie, dass die Frage speziell nach Modellen mit der gleichen Anzahl von Parametern fragt. Auf diese Weise reduziert sich der AIC auf SSE oder Abweichung oder was auch immer.
gung - Wiedereinsetzung von Monica