Jackknife gegen LOOCV

15

Gibt es wirklich einen Unterschied zwischen dem Jackknife und der fehlenden Kreuzvalidierung? Die Prozedur scheint identisch zu sein. Fehlt mir etwas?

Wintermute
quelle

Antworten:

11

Bei der Kreuzvalidierung berechnen Sie eine Statistik für die ausgelassenen Stichproben. Am häufigsten sagen Sie die ausgelassenen Stichproben anhand eines Modells voraus, das auf den gespeicherten Stichproben basiert. Beim Jackknifing berechnen Sie eine Statistik nur aus den gespeicherten Stichproben.

Tommy L
quelle
4
Ich verstehe nicht, wie diese Antwort auf die LOOCV in der ursprünglichen Frage spricht. Inwiefern kann man aus einer einzigen ausgelassenen Beobachtung eine "Statistik berechnen" ?
Alexis
12

Jackknife bezieht sich oft auf zwei verwandte, aber unterschiedliche Prozesse, die beide auf einem ausschließlichen Ansatz beruhen - was genau zu dieser Verwirrung führt.

In einem Zusammenhang kann Jackknife verwendet werden, um Populationsparameter und ihre Standardfehler abzuschätzen. Wenn Sie beispielsweise einen Jackknife-Ansatz verwenden, um die Steigung und den Achsenabschnitt eines einfachen Regressionsmodells zu schätzen, würden Sie:

  1. Schätzen Sie die Steigung und den Achsenabschnitt mit allen verfügbaren Daten.
  2. Lassen Sie 1 Beobachtung aus und schätzen Sie die Steigung und den Achsenabschnitt (auch als "Teilschätzung" der Koeffizienten bezeichnet).
  3. Berechnen Sie die Differenz zwischen der "Teilschätzung" und der "Alle Daten" -Schätzung der Steigung und des Achsenabschnitts (auch als "Pseudowert" der Koeffizienten bekannt).
  4. Wiederholen Sie die Schritte 2 und 3 für den gesamten Datensatz.
  5. Berechnen Sie den Mittelwert der Pseudowerte für jeden Koeffizienten - dies sind die Jackknife-Schätzungen für die Steigung und den Achsenabschnitt

Die Pseudowerte und die Jackknife-Schätzungen der Koeffizienten können auch verwendet werden, um die Standardfehler und damit die Konfidenzintervalle zu bestimmen. In der Regel bietet dieser Ansatz breitere Konfidenzintervalle für die Koeffizienten, da dies ein besseres, konservativeres Maß für die Unsicherheit ist. Dieser Ansatz kann auch verwendet werden, um eine Jackknife-Schätzung der Vorspannung für die Koeffizienten zu erhalten.

Im anderen Kontext wird Jackknife verwendet, um die Modellleistung zu bewerten. In diesem Fall ist jackknife = eine einmalige Kreuzvalidierung. Beide beziehen sich darauf, eine Beobachtung aus dem Kalibrierungsdatensatz herauszulassen, das Modell neu zu kalibrieren und die Beobachtung vorherzusagen, die ausgelassen wurde. Im Wesentlichen wird jede Beobachtung unter Verwendung ihrer "Teilschätzungen" der Prädiktoren vorhergesagt.

Hier ist eine nette kleine Beschreibung von Jackknife, die ich online gefunden habe: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf

jcmb
quelle
1
Sofern ich mich nicht irre (und ich kann es durchaus sein), beschreibt Ihr erster Kontext die einmalige Kreuzvalidierung .
Alexis
2
Ich habe nur die Idee, Parameter mit LOO zu schätzen, von der Idee, den ausgelassenen Wert zu schätzen (wie in LOOCV), getrennt. Ich sehe sie als zwei verwandte, aber leicht unterschiedliche Prozesse, aber vielleicht können beide als LOOCV bezeichnet werden? Ich könnte mich auch irren.
jcmb