Original (?) Modellauswahl mit k-fachem Lebenslauf

9

Wenn ich einen k-fachen CV zur Auswahl unter Regressionsmodellen verwende, berechne ich normalerweise den CV-Fehler für jedes Modell separat zusammen mit seinem Standardfehler SE und wähle das einfachste Modell innerhalb von 1 SE des Modells mit dem niedrigsten CV-Fehler (der 1) aus Standardfehlerregel, siehe zum Beispiel hier ). Kürzlich wurde mir jedoch gesagt, dass ich auf diese Weise die Variabilität überschätze und dass ich im speziellen Fall der Auswahl zwischen zwei Modellen A und B wirklich anders vorgehen sollte:

  • Berechnen Sie für jede Falte der Länge die punktweisen Unterschiede zwischen den beiden Modellvorhersagen. Berechnen Sie dann die mittlere quadratische Differenz für die FalteKNK
    MSDK=i=1NK(y^Aiy^Bi)2NK
  • Durchschnitt über Falten wie gewohnt und verwenden Sie diesen CV-Differenzfehler (zusammen mit seinem Standardfehler) als Schätzer für den Generalisierungsfehler.MSDK

Fragen:

  1. Ergibt das Sinn für dich? Ich weiß, dass es theoretische Gründe für die Verwendung von CV-Fehlern als Schätzer für Generalisierungsfehler gibt (ich weiß nicht, welche diese Gründe sind, aber ich weiß, dass sie existieren!). Ich habe keine Ahnung, ob es theoretische Gründe für die Verwendung dieses CV-Fehlers "Unterschied" gibt.
  2. Ich weiß nicht, ob dies auf die Vergleiche von mehr als zwei Modellen verallgemeinert werden kann. Die Berechnung der Unterschiede für alle Modellpaare erscheint riskant (mehrere Vergleiche?): Was würden Sie tun, wenn Sie mehr als zwei Modelle hätten?

EDIT: Meine Formel ist völlig falsch, die richtige Metrik wird hier beschrieben und es ist viel komplizierter. Nun, ich bin froh, dass ich hier gefragt habe, bevor ich die Formel blind angewendet habe! Ich danke @Bay, dass er mir geholfen hat, seine aufschlussreiche Antwort zu verstehen. Das richtige beschriebene Maß ist ziemlich experimentell, also werde ich mich an mein vertrauenswürdiges Arbeitspferd halten, den CV-Fehler!

DeltaIV
quelle

Antworten:

2

Der ist ein seltsames Maß für den Generalisierungsfehler, da der Holdout-Satz nicht einmal ins Bild kommt. Dies zeigt Ihnen nur, wie korreliert die Vorhersagen des Modells miteinander sind, aber nichts darüber, wie gut der Testdatenpunkt tatsächlich vorhergesagt wird.MSDK

Zum Beispiel könnte ich mir ein dummes Paar Prädiktoren einfallen lassen:

y^A(x,θ)=1+x,1θ

y^B(x,θ):=1+x,1θ2

In diesem Fall würde mich die Abstimmung auf Kreuzvalidierung dazu bringen, so groß wie möglich zu setzen, da dies die herunterfahren , aber ich bezweifle, dass diese Modelle gute Prädiktoren wären.θMSDK

Ich habe mir den Link angesehen, aber Ihre Messung dort nicht gesehen. Andrew Gelman ist ein angesehener Statistiker, daher bezweifle ich, dass er so etwas wie das oben Gesagte befürworten würde, was als Schätzer für Generalisierungsfehler eindeutig fehlschlägt. In seinem Artikel und dem Link wird die Kreuzvalidierung von Leave One Out (LOO) erörtert, für die noch ein Vergleich mit einem Testdatenpunkt (dh aus dem Training herausgehalten) als Benchmark erforderlich ist. Das ist eine rein "nach innen" aussehende Metrik, die Ihnen nichts über den erwarteten sagt (außer vielleicht, dass die beiden Modelle ähnliche Fehler haben ...).MSDKMSDK


Antwort auf OP-Kommentar

Die in Ihrem Kommentar dargestellte Formel erfordert ein wenig Kontext:

  1. Es ist ein Bayes'sches Maß für die Genauigkeit, da elpd die erwartete logarithmische punktweise Vorhersagedichte ist - ein ziemlicher Schluck, aber im Grunde ist es die Summe der erwarteten Werte des Logarithmus der posterioren prädiktiven Dichte, die an jedem Datenpunkt unter einer vorherigen Vorhersage ausgewertet werden Dichte, die durch Kreuzvalidierung geschätzt wird.
  2. Das obige Maß (elpd) wird unter Verwendung einer Kreuzvalidierung ohne Auslassen berechnet, wobei die Vorhersagedichte an dem ausgelassenen Punkt genommen wird.
  3. Ihre Formel (19) berechnet den Standardfehler des Unterschieds in der Vorhersagegenauigkeit (gemessen mit elpd) zwischen zwei Modellen. Die Idee ist, dass der Unterschied in elpd asymptotisch normal ist, so dass der Standardfehler eine inferentielle Bedeutung hat (und verwendet werden kann, um zu testen, ob der zugrunde liegende Unterschied Null ist) oder dass Modell A einen kleineren Vorhersagefehler als Modell B hat.

Es gibt also viele bewegliche Teile dieser Messung: Sie müssen einen MCMC-Abtastalgorithmus ausgeführt haben, um Punkte aus der posterioren Parameterdichte zu erhalten. Sie müssen es dann integrieren, um Vorhersagedichten zu erhalten. Dann müssen Sie die erwarteten Werte von jedem von diesen nehmen (über viele Ziehungen). Es ist ein ziemlicher Prozess, aber am Ende soll es einen nützlichen Standardfehler geben.

Hinweis: Im dritten vollständigen Absatz unter Gleichung (19) geben die Autoren an, dass weitere Untersuchungen erforderlich sind, um festzustellen, ob dieser Ansatz für den Modellvergleich gut geeignet ist. Daher ist er noch nicht gut getestet (sehr experimentell). Daher vertrauen Sie im Wesentlichen auf die Nützlichkeit dieser Methode, bis Follow-up-Studien bestätigen, dass sie das bessere Modell (in Bezug auf elpd ) zuverlässig identifiziert .


quelle
Ich verstehe Ihren Standpunkt: Offensichtlich habe ich (ebenso wie mein Kollege, der mich auf das Papier hingewiesen hat) nichts davon verstanden. Können Sie mir erklären, was der Begriff ist, den Gelman "Der Standardfehler ihrer [Modelle A & B] Differenz" nennt, ? Seite 18 des verlinkten Papiers, Abs. 5.2. Es wäre wirklich hilfreich, wenn Sie ein einfaches Beispiel liefern könnten, in dem Sie zeigen, wie dieser Begriff berechnet wird. Es gibt definitiv eine Menge, die ich hier nicht verstehe. se(elpd^LOOAelpd^LOOB)
DeltaIV
@ DeltaIV Ok ... Ich werde den Abschnitt, auf den verwiesen wird, überprüfen und versuchen, diese Formel für Sie zu entpacken.
1
@ DeltaIV ok, ich hatte eine Änderung zu überprüfen. Ich habe meinen Beitrag erweitert. Dies scheint eine sehr experimentelle (und nicht überprüfte) Methode zum Vergleich zweier Vorhersagemodelle zu sein. Ich würde vorsichtig sein, wenn Sie es nicht mit Ihren eigenen Monte-Carlo-Studien überprüfen können (dh kann es das prädiktivere Modell auswählen, wenn Sie die richtige Antwort kennen?).