Kann mir jemand erklären, welche mathematische Logik zwei Aussagen (a) und (b) miteinander verbindet? Lassen Sie uns eine Reihe von Werten haben (einige Verteilung). Jetzt,
a) Der Median hängt nicht von jedem Wert ab [er hängt nur von einem oder zwei Mittelwerten ab]; b) Median ist der Ort der minimalen Summe der absoluten Abweichungen davon.
Und ebenso und im Gegensatz dazu
a) (arithmetisches) Mittel hängt von jedem Wert ab; b) Mittelwert ist der Ort minimaler Quadratabweichungen.
Mein Verständnis davon ist bisher intuitiv.
mean
median
robust
sensitivity-analysis
ttnphns
quelle
quelle
Antworten:
Dies sind zwei Fragen: Zum einen, wie der Mittelwert und der Median die Verlustfunktionen minimieren , und zum anderen, wie sensibel diese Schätzungen für die Daten sind. Die beiden Fragen hängen zusammen, wie wir sehen werden.
Verlust minimieren
Eine Zusammenfassung (oder ein Schätzer) des Zentrums eines Stapels von Zahlen kann erstellt werden, indem der Zusammenfassungswert geändert wird und man sich vorstellt, dass jede Zahl im Stapel eine Rückstellkraft auf diesen Wert ausübt. Wenn die Kraft den Wert niemals von einer Zahl verdrängt, ist wohl jeder Punkt, an dem die Kräfte ausgeglichen sind, ein "Mittelpunkt" des Stapels.
Quadratischer ( ) VerlustL2
Wenn wir zum Beispiel eine klassische Feder ( gemäß dem Hookeschen Gesetz ) zwischen der Zusammenfassung und jeder Zahl anbringen würden, wäre die Kraft proportional zum Abstand zu jeder Feder. Die Federn würden die Zusammenfassung hin und her ziehen und sich schließlich an einem einzigartigen stabilen Ort mit minimaler Energie niederlassen.
Ich möchte auf einen kleinen Trick aufmerksam machen, der gerade stattgefunden hat: Die Energie ist proportional zur Summe der quadratischen Abstände. Die Newtonsche Mechanik lehrt uns, dass Kraft die Änderungsrate der Energie ist. Das Erreichen eines Gleichgewichts - das Minimieren der Energie - führt zum Ausgleich der Kräfte. Die Nettoveränderungsrate der Energie ist Null.
Nennen wir dies die " -Zusammenfassung" oder "Quadratverlustzusammenfassung".L2
Absoluter ( ) VerlustL1
Eine weitere Zusammenfassung kann erstellt werden, indem angenommen wird, dass die Größen der Rückstellkräfte unabhängig von den Abständen zwischen dem Wert und den Daten konstant sind . Die Kräfte selbst sind jedoch nicht konstant, da sie den Wert immer zu jedem Datenpunkt ziehen müssen. Wenn also der Wert kleiner als der Datenpunkt ist, ist die Kraft positiv gerichtet, aber wenn der Wert größer als der Datenpunkt ist, ist die Kraft negativ gerichtet. Jetzt ist die Energie proportional zu den Abständen zwischen dem Wert und den Daten. Es wird typischerweise einen gesamten Bereich geben, in dem die Energie konstant ist und die Nettokraft Null ist. Jeder Wert in dieser Region kann als " -Zusammenfassung" oder "Absolutverlustzusammenfassung" bezeichnet werden.L1
Diese physikalischen Analogien liefern nützliche Informationen zu den beiden Zusammenfassungen. Was passiert zum Beispiel mit der Zusammenfassung, wenn wir einen der Datenpunkte verschieben? Im Fall mit angebrachten Federn wird durch Verschieben eines Datenpunkts dessen Feder entweder gedehnt oder entspannt. Das Ergebnis ist eine Änderung der Gültigkeit der Zusammenfassung, sodass sich die Antwort ändern muss. Im L 1 -Fall hat eine Änderung eines Datenpunkts jedoch meistens keinen Einfluss auf die Zusammenfassung, da die Kraft lokal konstant ist. Die Kraft kann sich nur ändern, wenn sich der Datenpunkt über die Zusammenfassung bewegt.L2 L1
(In der Tat sollte es offensichtlich sein, dass die Nettokraft auf einen Wert durch die Anzahl der Punkte gegeben ist, die größer sind als er - was ihn nach oben zieht - abzüglich der Anzahl der Punkte, die kleiner sind als er - was ihn nach unten zieht.) Die -Zusammenfassung muss an jeder Stelle erfolgen, an der die Anzahl der Datenwerte, die sie überschreiten, genau der Anzahl der Datenwerte entspricht, die kleiner sind als sie.)L1
Verluste abbilden
Da sich sowohl Kräfte als auch Energien addieren, können wir in beiden Fällen die Nettoenergie in einzelne Beiträge aus den Datenpunkten zerlegen. Durch die grafische Darstellung der Energie oder Kraft als Funktion des Summenwerts erhalten Sie ein detailliertes Bild dessen, was passiert. Die Zusammenfassung wird ein Ort sein, an dem die Energie (oder der "Verlust" im statistischen Sprachgebrauch) am geringsten ist. Entsprechend wird es ein Ort sein, an dem Kräfte sich ausgleichen: Die Mitte der Daten liegt dort, wo die Nettoverluständerung Null ist.
Diese Abbildung zeigt Energien und Kräfte für einen kleinen Datensatz mit sechs Werten (in jedem Diagramm durch schwache vertikale Linien gekennzeichnet). Die gestrichelten schwarzen Kurven sind die Summen der farbigen Kurven und zeigen die Beiträge der einzelnen Werte. Die x-Achse gibt mögliche Werte der Zusammenfassung an.
Das arithmetische Mittel ist ein Punkt, an dem der Quadratverlust minimiert wird: Es befindet sich am Scheitelpunkt (unten) der schwarzen Parabel im oberen linken Diagramm. Es ist immer einzigartig. Der Median ist ein Punkt, an dem der absolute Verlust minimiert wird. Wie oben erwähnt, muss es in der Mitte der Daten auftreten. Es ist nicht unbedingt einzigartig. Es befindet sich am unteren Rand der unterbrochenen schwarzen Kurve oben rechts. (Die Unterseite besteht eigentlich aus einem kurzen flachen Abschnitt zwischen und - 0,17 ; jeder Wert in diesem Intervall ist ein Median.)- 0,23 - 0,17
Empfindlichkeit analysieren
Zuvor habe ich beschrieben, was mit der Zusammenfassung geschehen kann, wenn ein Datenpunkt geändert wird. Es ist aufschlussreich, darzustellen, wie sich die Zusammenfassung als Reaktion auf die Änderung eines einzelnen Datenpunkts ändert. (Diese Diagramme sind im Wesentlichen die empirischen Einflussfunktionen . Sie unterscheiden sich von der üblichen Definition darin, dass sie die tatsächlichen Werte der Schätzungen anzeigen, anstatt wie stark sich diese Werte ändern.) Der Wert der Zusammenfassung ist mit "Schätzung" auf dem y gekennzeichnet -axes erinnert uns daran, dass in dieser Zusammenfassung geschätzt wird, wo sich die Mitte des Datensatzes befindet. Die neuen (geänderten) Werte jedes Datenpunkts werden auf ihrer x-Achse angezeigt.
Diese Abbildung zeigt die Ergebnisse der Variation der einzelnen Datenwerte im Stapel (der gleiche Wert wie in der ersten Abbildung). Für jeden Datenwert gibt es ein Diagramm, das auf seinem Diagramm mit einem langen schwarzen Häkchen entlang der unteren Achse hervorgehoben ist. (Die verbleibenden Datenwerte werden mit kurzen grauen Häkchen angezeigt.) Die blaue Kurve zeigt die L 2 -Zusammenfassung - das arithmetische Mittel - und die rote Kurve zeigt die L 1- 1,02 , - 0,82 , - 0,23 , - 0,17 , - 0,08 , 0,77 L2 L1 Zusammenfassung - der Median. (Da der Median oft ein Bereich von Werten ist, wird hier die Konvention des Zeichnens der Mitte dieses Bereichs befolgt.)
Beachten:
Die Empfindlichkeit des Mittelwerts ist unbegrenzt: Diese blauen Linien erstrecken sich unendlich weit nach oben und unten. Die Empfindlichkeit des Medians ist begrenzt: Es gibt obere und untere Grenzen für die roten Kurven.
Wenn sich der Median ändert, ändert er sich jedoch viel schneller als der Mittelwert. Die Steigung jeder blauen Linie ist ( in der Regel ist es 1 / n für einen Datensatz mit n - Werten), wobei die Steigungen der geneigten Teile der roten Linien sind alle 1 / 2 .1 / 6 1 / n n 1 / 2
Der Mittelwert ist für jeden Datenpunkt empfindlich und diese Empfindlichkeit hat keine Grenzen (wie die Steigungen ungleich Null aller farbigen Linien in der linken unteren Darstellung der ersten Abbildung zeigen). Obwohl der Median für jeden Datenpunkt empfindlich ist, ist die Empfindlichkeit begrenzt (weshalb sich die farbigen Kurven im unteren rechten Diagramm der ersten Figur in einem engen vertikalen Bereich um Null befinden). Dies sind natürlich nur visuelle Wiederholungen des (Verlust-) Grundgesetzes: quadratisch für den Mittelwert, linear für den Median.
Das Intervall, in dem der Median geändert werden kann, kann zwischen den Datenpunkten variieren. Es wird immer durch zwei der Nahmittelwerte unter den Daten begrenzt, die sich nicht ändern . (Diese Grenzen sind durch schwache vertikale gestrichelte Linien gekennzeichnet.)
Da die Änderungsrate des Median immer , die Höhe , durch die es daher variieren könnte , wird durch die Länge dieses Spalts zwischen nahen Mittelwerte des Datensatzes bestimmt.1 / 2
Obwohl üblicherweise nur der erste Punkt notiert wird, sind alle vier Punkte wichtig. Bestimmtes,
Es ist definitiv falsch, dass der "Median nicht von jedem Wert abhängt". Diese Abbildung zeigt ein Gegenbeispiel.
Dennoch ist der Median nicht hängen „wesentlich“ auf jedem Wert in dem Sinne , dass obwohl einzelne Werte ändern kann den Median ändern, wird die Größe der Änderung durch die Lücken zwischen nahen mittleren Werten im Datensatz begrenzt ist. Insbesondere ist das Ausmaß der Veränderung begrenzt . Wir sagen, dass der Median eine "resistente" Zusammenfassung ist.
Obwohl der Mittelwert nicht resistent ist und sich bei jeder Änderung eines Datenwerts ändert, ist die Änderungsrate relativ gering. Je größer der Datensatz ist, desto geringer ist die Änderungsrate. Um eine wesentliche Änderung im Mittelwert eines großen Datensatzes zu erzeugen, muss mindestens ein Wert einer relativ großen Änderung unterzogen werden. Dies deutet darauf hin, dass die Nichtbeständigkeit des Mittelwerts nur für (a) kleine Datensätze oder (b) Datensätze von Bedeutung ist, bei denen ein oder mehrere Daten Werte aufweisen können, die extrem weit von der Mitte der Charge entfernt sind.
Diese Bemerkungen - von denen ich hoffe, dass sie aus den Zahlen hervorgehen - lassen einen tiefen Zusammenhang zwischen der Verlustfunktion und der Empfindlichkeit (oder dem Widerstand) des Schätzers erkennen. Beginnen Sie dazu mit einem der Wikipedia-Artikel zu M-Estimators und verfolgen Sie diese Ideen nach Belieben.
Code
Dieser
R
Code erzeugte die Zahlen und kann leicht modifiziert werden, um jeden anderen Datensatz auf die gleiche Weise zu untersuchen: Ersetzen Sie einfach den zufällig erzeugten Vektory
durch einen beliebigen Vektor von Zahlen.quelle
quelle
und
quelle
Hey hier ist ein Beitrag, nachdem ich ein bisschen darüber gelesen habe. Wahrscheinlich ein bisschen zu spät für die Person, die gefragt hat, aber vielleicht wert für jemand anderen.
Für den Mittelfall:
Da die Funktion konvex ist, ist dies ein Minimum
Für den Medianfall
Da die Funktion auch konvex ist, ist dies wieder ein Minimum.
quelle
#
?