Wenn ich einen k-fachen CV zur Auswahl unter Regressionsmodellen verwende, berechne ich normalerweise den CV-Fehler für jedes Modell separat zusammen mit seinem Standardfehler SE und wähle das einfachste Modell innerhalb von 1 SE des Modells mit dem niedrigsten CV-Fehler (der 1) aus Standardfehlerregel, siehe zum Beispiel hier ). Kürzlich wurde mir jedoch gesagt, dass ich auf diese Weise die Variabilität überschätze und dass ich im speziellen Fall der Auswahl zwischen zwei Modellen A und B wirklich anders vorgehen sollte:
- Berechnen Sie für jede Falte der Länge die punktweisen Unterschiede zwischen den beiden Modellvorhersagen. Berechnen Sie dann die mittlere quadratische Differenz für die Falte
- Durchschnitt über Falten wie gewohnt und verwenden Sie diesen CV-Differenzfehler (zusammen mit seinem Standardfehler) als Schätzer für den Generalisierungsfehler.
Fragen:
- Ergibt das Sinn für dich? Ich weiß, dass es theoretische Gründe für die Verwendung von CV-Fehlern als Schätzer für Generalisierungsfehler gibt (ich weiß nicht, welche diese Gründe sind, aber ich weiß, dass sie existieren!). Ich habe keine Ahnung, ob es theoretische Gründe für die Verwendung dieses CV-Fehlers "Unterschied" gibt.
- Ich weiß nicht, ob dies auf die Vergleiche von mehr als zwei Modellen verallgemeinert werden kann. Die Berechnung der Unterschiede für alle Modellpaare erscheint riskant (mehrere Vergleiche?): Was würden Sie tun, wenn Sie mehr als zwei Modelle hätten?
EDIT: Meine Formel ist völlig falsch, die richtige Metrik wird hier beschrieben und es ist viel komplizierter. Nun, ich bin froh, dass ich hier gefragt habe, bevor ich die Formel blind angewendet habe! Ich danke @Bay, dass er mir geholfen hat, seine aufschlussreiche Antwort zu verstehen. Das richtige beschriebene Maß ist ziemlich experimentell, also werde ich mich an mein vertrauenswürdiges Arbeitspferd halten, den CV-Fehler!