Mathematische Intuition der Bias-Varianz-Gleichung

12

Ich habe kürzlich eine Frage gestellt, die nach einer mathematischen Interpretation / Intuition hinter der Elementargleichung für Stichprobenmittelwert und Varianz sucht: , geometrisch oder auf andere Weise.E[X2]=Var(X)+(E[X])2

Aber jetzt bin ich neugierig auf die oberflächlich ähnliche Bias-Varianz-Kompromissgleichung.

(Formeln ausWikipedia)

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2

Für mich gibt es eine oberflächliche Ähnlichkeit mit der Bias-Varianz-Kompromissgleichung für die Regression: drei Terme mit Quadraten und zwei Additionen zum anderen. Sehr pythagoreisch aussehend. Gibt es eine ähnliche Vektorbeziehung einschließlich Orthogonalität für alle diese Elemente? Oder gibt es eine andere verwandte mathematische Interpretation, die gilt?

Ich suche eine mathematische Analogie mit einigen anderen mathematischen Objekten, die Licht ins Dunkel bringen könnten. Ich suche nicht nach der Genauigkeits-Präzisions-Analogie, die hier gut behandelt wird. Aber wenn es nicht-technische Analogien gibt, die Menschen zwischen dem Bias-Varianz-Kompromiss und der viel grundlegenderen Mittelwert-Varianz-Beziehung geben können, wäre das auch großartig.

Mitch
quelle

Antworten:

12

Die Ähnlichkeit ist mehr als oberflächlich.

Der "Bias-Varianz-Kompromiss" kann als der Satz von Pythagoras interpretiert werden, der auf zwei senkrechte euklidische Vektoren angewendet wird: Die Länge des einen ist die Standardabweichung und die Länge des anderen ist die Bias. Die Länge der Hypotenuse ist der quadratische Mittelwertfehler.

Eine grundlegende Beziehung

Betrachten Sie als Ausgangspunkt diese aufschlussreiche Berechnung, die für jede Zufallsvariable mit einem endlichen zweiten Moment und einer reellen Zahl a gültig ist . Da das zweite Moment endlich ist, hat X einen endlichen Mittelwert μ = E (X.einX. für den E ( X - μ ) = 0 ist , woherμ=E.(X.)E.(X.- -μ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

Dies zeigt, wie die mittlere quadratische Abweichung zwischen und einem beliebigen "Grundlinien" -Wert istX mit variiert a : eseine quadratische Funktion von ist ein mit einem Minimum an μ , wobei die mittlere quadratische Abweichung die Varianz von ist X .aaaμX

Die Verbindung mit Schätzern und Voreingenommenheit

Jeder Schätzer θ ist eine Zufallsvariable , weil (per Definition) es dich um eine (messbare) Funktion des Zufallsvariablen ist. Lass es die Rolle von X spielenθ^X in der vorhergehenden, und lassen Sie die estimand (das Ding θ zu schätzen soll) sein θ , haben wirθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Kehren wir nun zu , nachdem wir gesehen haben, wie die Aussage über Bias + Varianz für einen Schätzer buchstäblich ein Fall von ( 1 ) ist . Die Frage sucht nach "mathematischen Analogien mit mathematischen Objekten". Wir können mehr als das tun, indem wir zeigen, dass quadratintegrierbare Zufallsvariablen natürlich zu einem euklidischen Raum gemacht werden können.(1)(1)

Mathematischer Hintergrund

In einem sehr allgemeinen Sinne ist eine Zufallsvariable eine (messbare) reelle Funktion in einem Wahrscheinlichkeitsraum . Die Menge solcher Funktionen, die quadratisch integrierbar sind und oft L 2 ( Ω ) geschrieben werden (wobei die gegebene Wahrscheinlichkeitsstruktur verstanden wird), ist fast ein Hilbert-Raum. Um es zu einer zu machen, müssen wir zwei beliebige Zufallsvariablen X und Y zusammenführen, die sich in Bezug auf die Integration nicht wirklich unterscheiden: Das heißt, wir sagen, X und Y sind immer gleichwertig(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

Es ist einfach zu überprüfen , dass dies eine wahre Äquivalenzrelation: am wichtigsten ist , wenn äquivalent ist Y und Y entspricht Z , dann notwendigerweise X äquivalent sein Z . Wir können daher alle quadratintegrierbaren Zufallsvariablen in Äquivalenzklassen unterteilen. Diese Klassen bilden die Menge L 2 ( Ω ) . Außerdem,XYYZXZL2(Ω)erbt L 2 dieVektorraumstrukturvon L 2, die durch punktweise Addition von Werten und punktweise Skalarmultiplikation definiert ist. Auf diesem Vektorraum die FunktionL2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

ist eine Norm , oft geschrieben . Diese Norm macht L 2 ( Ω ) zu einem Hilbert-Raum. Stellen Sie sich einen Hilbert-Raum H als einen "unendlich dimensionalen euklidischen Raum" vor. Jeder endlich dimensionale Unterraum V H erbt die Norm von H und V , wobei diese Norm ein euklidischer Raum ist: Wir können darin euklidische Geometrie machen.||X||2L2(Ω)HVHHV

Schließlich brauchen wir eine Tatsache, die speziell für Wahrscheinlichkeitsräume ist (und nicht für allgemeine Maßräume): Da eine Wahrscheinlichkeit ist, ist sie (durch 1 ) begrenzt, woraus die konstanten Funktionen ω a (für jede feste reelle Zahl a ) bestehen quadratisch integrierbare Zufallsvariablen mit endlichen Normen.P1ωaa

Eine geometrische Interpretation

Betrachten Sie jede quadratintegrierbare Zufallsvariable , die als Vertreter ihrer Äquivalenzklasse in L 2 ( Ω ) angesehen wird . Es hat einen Mittelwert μ = E ( X ), der (wie man überprüfen kann) nur von der Äquivalenzklasse von X abhängt . Sei 1 : ω 1 die Klasse der konstanten Zufallsvariablen.XL2(Ω)μ=E(X)X1:ω1

und 1 erzeugen einen euklidischen Unterraum V L 2 ( Ω ), dessen Dimension höchstens 2 beträgt. In diesem Unterraum | | X | | 2 2 = E ( X 2 ) ist die quadratische Länge von X und | | einX1VL2(Ω)2||X||22=E(X2)X||a1||22=a2 is the squared length of the constant random variable ωa. It is fundamental that Xμ1 is perpendicular to 1. (One definition of μ is that it's the unique number for which this is the case.) Relation (1) may be written

||Xa1||22=||Xμ1||22+||(aμ)1||22.

It indeed is precisely the Pythagorean Theorem, in essentially the same form known 2500 years ago. The object

Xa1=(Xμ1)(aμ)1
is the hypotenuse of a right triangle with legs Xμ1 and (aμ)1.

If you would like mathematical analogies, then, you may use anything that can be expressed in terms of the hypotenuse of a right triangle in a Euclidean space. The hypotenuse will represent the "error" and the legs will represent the bias and the deviations from the mean.

whuber
quelle
Excellent. So the reasoning is almost identical to that for my previous question re Var=EX2(EX)2. So then there is an analogy between those, right? It seems intuitively that bias is analogous to mean. And the generalization is that mean is the 1st moment with respect to 0, but bias is with respect to the true value of a parameter. Does that sound right?
Mitch
Yes--with the proviso (which is an insight added by the geometric interpretation) that the right way to measure these things is in terms of their squares.
whuber
So whuber, I have a related question. For any machine learning, I have these two concepts "if we increase the sample size, the variance of an assymptotically unbiased estimator will go to zero" and "if we increase the model complexity, therefore, we will have low bias and high variance". Therefore, can I say that more computational power allows more complexity which will reduce bias, but increase variance. Under asymptotic however, this increase in variance will be offset.
ARAT
@Mustafa Sie machen einige starke Annahmen. Das erste ist, dass eine Stichprobe zufällig und (zumindest annähernd) unabhängig ist - was bei ML-Anwendungen häufig nicht der Fall ist. Die Schlussfolgerungen zur Erhöhung der Modellkomplexität sind im Allgemeinen nicht zutreffend, zum Teil, weil "zunehmende Komplexität" impliziert, dass Sie das Modell ändern, und dies die Bedeutung dessen in Frage stellt, was Ihr Schätzer schätzt und wie dieser Schätzer mit seinem Schätzer in Beziehung stehen könnte . Daraus folgt nicht unbedingt, dass eine zunehmende Komplexität des Modells einen allgemein vorhersehbaren Einfluss auf die Verzerrung oder Varianz hat.
whuber
4

Dies ist eine Möglichkeit, visuell über die Genauigkeit und den Kompromiss zwischen Varianzverzerrung nachzudenken. Angenommen, Sie betrachten ein Ziel und machen viele Schüsse, die alle nahe der Mitte des Ziels so verstreut sind, dass keine Verzerrung vorliegt. Dann wird die Genauigkeit ausschließlich durch die Varianz bestimmt, und wenn die Varianz gering ist, ist der Schütze genau.

Betrachten wir nun einen Fall, in dem es eine große Präzision, aber eine große Verzerrung gibt. In diesem Fall werden die Aufnahmen um einen Punkt weit vom Zentrum verteilt. Etwas bringt den Zielpunkt durcheinander, aber um diesen Zielpunkt herum befindet sich jeder Schuss in der Nähe dieses neuen Zielpunkts. Der Schütze ist präzise, ​​aber aufgrund der Voreingenommenheit sehr ungenau.

There are other situations where the shots are accurate because of small bias and high precision. What we want is no bias and small variance or small variance with small bias. In some statistical problems you can't have both. So MSE becomes the measure of accuracy that you want to use that plays off the variance bias trade off and minimzing MSE should be the goal.

Michael R. Chernick
quelle
Excellent intuitive description re bias-variance and accuracy-precision analogy. I am also looking for a mathematical interpretation like the Pythagorean Theorem.
Mitch
1
I didn't focus on that because it was covered on another post that discussed the geometric interpretation. I will findthe link for you.
Michael R. Chernick
@Mitch The search of "Bias-variance tradeoff" yielded 134 hits on the CV site. I haven't found the Pythagorean Theorem one yet but this one is really good and has a picture of the targets I discussed on this post. "Intuitive explanation of the bias-variance tradeoff".
Michael R. Chernick
I found the one I was looking for from January 5 2017 "intuition (geometric or other) of Var(X) = E[X2]-(E[X])2).
Michael R. Chernick
@Mitch I didn't realize that you posted the question I was looking for.
Michael R. Chernick