Ich bin ein bisschen verwirrt. Ich habe dieses Papier gelesen, in dem erklärt wurde, dass die Absacktechnik die Varianz stark verringert und die Vorspannung nur geringfügig erhöht. Ich habe es nicht verstanden, warum es die Varianz reduziert. Ich weiß, was Varianz und Voreingenommenheit sind. Bias ist die Unfähigkeit des Modells, die Daten zu lernen. Varianz ähnelt einer Überanpassung. Ich verstehe einfach nicht, wie das Absacken die Varianz verringert.
9
Antworten:
Wenn ein Modell eine zu hohe Varianz aufweist, kann es informell "zu gut" zu den Daten passen. Das bedeutet, dass für verschiedene Daten die vom Lernalgorithmus gefundenen Parameter des Modells unterschiedlich sind, oder mit anderen Worten, dass die gelernten Parameter abhängig vom Trainingssatz eine hohe Varianz aufweisen.
Sie können sich das so vorstellen: Daten werden aus einer realen Wahrscheinlichkeitsverteilung abgetastet, und das Modell lernt Parameter in Abhängigkeit von den abgetasteten Daten. Daher gibt es eine gewisse bedingte Wahrscheinlichkeitsverteilung für gelernte Parameter der Modelldaten. Diese Verteilung weist eine gewisse Varianz auf, manchmal zu hoch. Wenn Sie jedoch Modelle mit unterschiedlichen Parametersätzen mitteln, die für verschiedene Trainingssätze gelernt wurden, ist es so, als hätten Sie diese bedingte Wahrscheinlichkeitsverteilung mal abgetastet . Der Durchschnitt von Stichproben aus einer PD weist immer eine geringere Varianz auf als nur eine Stichprobe aus derselben Verteilung. Für die Intuition betrachten Sie die Gaußsche PD, mit 0 Mittelwert und eine Stichprobe genauN N σ = 1 0 1 N 0 1N. N. N. σ= 1 0 Mittelwert und Varianz . Wenn Sie jedoch mal abtasten und die Ergebnisse mitteln, ist der Mittelwert des Ergebnisses der Operation immer noch , aber die Varianz ist .1 N. 0 1N.
Bitte beachten Sie auch, dass dies nur eine sehr informelle Intuition ist und es am besten ist, wenn Sie die Voreingenommenheit / Varianz aus einer guten, zuverlässigen Quelle lesen. Ich empfehle Elemente des statistischen Lernens II: http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Sie können das Buch kostenlos herunterladen und es gibt ein ganzes Kapitel über Bias / Varianz-Zerlegung.
quelle