In dem Lehrbuch "New Comprehensive Mathematics for O Level" von Greer (1983) sehe ich eine gemittelte Abweichung, die wie folgt berechnet wird:
Summieren Sie die absoluten Differenzen zwischen Einzelwerten und Mittelwert. Dann erhalten Sie den Durchschnitt. Im gesamten Kapitel wird der Begriff Mittelwertabweichung verwendet.
Vor kurzem habe ich jedoch mehrere Referenzen gesehen, die den Begriff Standardabweichung verwenden, und dies ist, was sie tun:
Berechnen Sie die Differenzquadrate zwischen Einzelwerten und dem Mittelwert. Dann erhalten Sie ihren Durchschnitt und schließlich die Wurzel der Antwort.
Ich habe beide Methoden an einem gemeinsamen Datensatz ausprobiert und ihre Antworten unterscheiden sich. Ich bin kein Statistiker. Ich war verwirrt, als ich versuchte, meinen Kindern Abweichung beizubringen.
Sind die Begriffe Standardabweichung und mittlere Abweichung gleich oder ist mein altes Lehrbuch falsch?
Antworten:
Beide geben an, wie weit Ihre Werte im Mittel der Beobachtungen verteilt sind.
Eine Beobachtung, die 1 unter dem Mittelwert liegt, ist gleichermaßen "weit" vom Mittelwert entfernt als ein Wert, der 1 über dem Mittelwert liegt. Daher sollten Sie das Vorzeichen der Abweichung vernachlässigen. Dies kann auf zwei Arten erfolgen:
Berechnen Sie den absoluten Wert der Abweichungen und addieren Sie diese.
Quadrieren Sie die Abweichungen und addieren Sie diese Quadrate. Aufgrund des Quadrats werden größere Abweichungen stärker gewichtet, und daher unterscheidet sich die Summe dieser Quadrate von der Summe der Mittelwerte.
Nachdem Sie die "Summe der absoluten Abweichungen" oder die "Quadratwurzel der Summe der quadratischen Abweichungen" berechnet haben, mitteln Sie sie, um die "mittlere Abweichung" bzw. die "Standardabweichung" zu erhalten.
Die mittlere Abweichung wird selten verwendet.
quelle
Heutzutage werden statistische Werte überwiegend von Computerprogrammen (Excel, ...) und nicht mehr von Taschenrechnern berechnet. Daher würde ich davon ausgehen, dass die Berechnung der "mittleren Abweichung" nicht umständlicher ist als die Berechnung der "Standardabweichung". Obwohl die Standardabweichung möglicherweise "... mathematische Eigenschaften hat, die sie in der Statistik nützlicher machen", ist sie tatsächlich eine Verzerrung des Konzepts der Abweichung von einem Mittelwert, da sie Datenpunkten, die weit vom Mittelwert entfernt sind, eine zusätzliche Gewichtung verleiht. Es mag einige Zeit dauern, aber ich hoffe, dass Statistiker bei der Erörterung der Verteilung zwischen Datenpunkten häufiger "mittlere Abweichung" verwenden - dies gibt genauer wieder, wie wir die Verteilung tatsächlich sehen.
quelle
Beide messen das gleiche Konzept, sind aber nicht gleich.
Versuchen Sie, berechnen1n∑ ( xich- x¯)2-------√
Der Grund, warum die Standardabweichung bevorzugt wird, ist, dass es später mathematisch einfacher ist, damit zu arbeiten, wenn die Berechnungen komplizierter werden.
quelle
@itsols, ich werde zu Kaspers wichtigster Vorstellung hinzufügen, dass
The mean deviation is rarely used
. Warum wird die Standardabweichung im Allgemeinen als besseres Maß für die Variabilität angesehen als die mittlere absolute Abweichung? Denn das arithmetische Mittel ist der Ort der minimalen Summe der quadrierten (und nicht der absoluten) Abweichungen davon.Angenommen, Sie möchten den Grad des Altruismus einschätzen. Dann werden Sie einen Menschen wahrscheinlich nicht danach fragen, wie viel er bereit ist, in einer "allgemeinen Lebenssituation" Geld zu geben. Stattdessen werden Sie sich fragen, wie viel er bereit ist, um es in der verhaltenen Situation zu tun, in der er nur über minimale Ressourcen für seinen eigenen Lebensunterhalt verfügt. Dh wie groß ist der individuelle Altruismus in einer Situation, in der der individuelle Altruismus minimal ist?
Wie unterschiedlich sind diese Daten? Intuitiv ist der beste Messindex derjenige, der in diesem Zusammenhang bis an die Grenze minimiert (oder maximiert) wird. Der Kontext ist "um das arithmetische Mittel". Dann st. Abweichung ist in diesem Sinne die beste Wahl. Wenn der Kontext "um den Median" wäre, dann meine | Abweichung | wäre die beste Wahl, da der Median der Ort der minimalen Summe der absoluten Abweichungen davon ist.
quelle
Eine Sache, die hinzugefügt werden sollte, ist, dass der wahrscheinlichste Grund dafür, dass in Ihrem 30 Jahre alten Lehrbuch die absolute mittlere Abweichung im Gegensatz zur Standardabweichung verwendet wurde, die einfachere manuelle Berechnung ist (keine Quadratur / Quadratwurzel). Jetzt, da die Rechner für Schüler leicht zugänglich sind, gibt es keinen Grund, sie nicht zu bitten, die Standardabweichung zu berechnen.
Es gibt immer noch Situationen, in denen bei der komplexen Modellanpassung absolute Abweichungen anstelle von Standardabweichungen verwendet werden. Absolute Abweichungen sind weniger empfindlich für extreme Ausreißer (Werte weit vom Mittelwert / der Trendlinie) als Standardabweichungen, da sie diesen Abstand nicht quadrieren, bevor sie zu den Werten anderer Datenpunkte addiert werden. Da die Modellanpassungsmethoden darauf abzielen, die Gesamtabweichung von der Trendlinie zu reduzieren (je nachdem, welche Methodenabweichung berechnet wird), können Methoden, die Standardabweichung verwenden, eine Trendlinie erzeugen, die von den meisten Punkten abweicht, um näher an einem Ausreißer zu sein . Die Verwendung absoluter Abweichungen verringert diese Verzerrung, jedoch auf Kosten einer komplizierteren Berechnung der Trendlinie.
Das liegt daran, dass die Standardabweichung, wie andere angemerkt haben, mathematische Eigenschaften und Beziehungen aufweist, die sie in der Statistik im Allgemeinen nützlicher machen. Aber "nützlich" sollte niemals mit perfekt verwechselt werden.
quelle
Beide messen die Streuung Ihrer Daten, indem sie den Abstand der Daten zum Mittelwert berechnen.
Der Unterschied zwischen den beiden Normen besteht darin, dass die Standardabweichung das Quadrat der Differenz berechnet, während die mittlere absolute Abweichung nur die absolute Differenz betrachtet. Daher erzeugen große Ausreißer bei Verwendung der Standardabweichung anstelle der anderen Methode eine höhere Streuung. Der euklidische Abstand wird in der Tat auch häufiger verwendet. Der Hauptgrund ist die Standardabweichunghaben nette Eigenschaften, wenn die Daten normal verteilt sind. Daher wird unter dieser Annahme empfohlen, es zu verwenden. Diese Annahme wird jedoch häufig für Daten gemacht, die eigentlich nicht normal verteilt sind und Probleme verursachen. Wenn Ihre Daten nicht normal verteilt sind, können Sie immer noch die Standardabweichung verwenden, aber Sie sollten mit der Interpretation der Ergebnisse vorsichtig sein.
Schließlich sollten Sie wissen, dass beide Dispersionsmaße spezielle Fälle der Minkowski-Distanz sind , für p = 1 und p = 2. Sie können p erhöhen, um andere Maße für die Streuung Ihrer Daten zu erhalten.
quelle
Es sind ähnliche Maßnahmen, die versuchen, den gleichen Begriff zu quantifizieren. Normalerweise verwenden Sie st. Abweichung, da es nette Eigenschaften hat, wenn Sie eine Vermutung über die zugrunde liegende Verteilung machen.
Andererseits verursacht der Absolutwert der mittleren Abweichung einige Probleme aus mathematischer Sicht, da Sie ihn nicht unterscheiden und nicht einfach analysieren können. Einige Diskussion hier .
quelle
Nein, du liegst falsch. Ich mache nur Spaß. Es gibt jedoch viele triftige Gründe, warum man eher die mittlere Abweichung als die formale Norm berechnen möchte, und auf diese Weise stimme ich dem Standpunkt meiner Ingenieursbrüder zu. Wenn ich Statistiken berechne, um sie mit einem Bestand bestehender Arbeiten zu vergleichen, in denen sowohl qualitative als auch quantitative Schlussfolgerungen zum Ausdruck gebracht werden, bleibe ich bei std. Aber nehmen wir zum Beispiel an, ich versuche, schnell zu rennenAnomalieerkennungsalgorithmen für binäre, maschinengenerierte Daten. Ich bin nicht nach akademischen Vergleichen als mein Endziel. Aber ich interessiere mich für die fundamentale Schlussfolgerung über die "Ausbreitung" eines bestimmten Datenflusses über seinen Mittelwert. Ich bin auch daran interessiert, dies iterativ und so effizient wie möglich zu berechnen. Bei digitaler elektronischer Hardware spielen wir die ganze Zeit schmutzige Streiche - wir destillieren Multiplikationen und Divisionen in Links- und Rechtsverschiebungen, und um Absolutwerte zu "berechnen", lassen wir einfach das Vorzeichen-Bit fallen (und berechnen gegebenenfalls das Komplement von ein oder zwei (beides einfache Transformationen). Daher entscheide ich mich, es so schnell wie möglich zu berechnen und lineare Schwellenwerte für die schnelle Erkennung von Anomalien über die gewünschten Zeitfenster anzuwenden.
quelle
Die beiden Maßnahmen unterscheiden sich in der Tat. Die erste wird oft als mittlere absolute Abweichung (MAD) und die zweite als Standardabweichung (STD) bezeichnet. In eingebetteten Anwendungen mit stark eingeschränkter Rechenleistung und begrenztem Programmspeicher kann das Vermeiden der Quadratwurzelberechnungen sehr wünschenswert sein.
Aus einem schnellen Grobtest geht hervor, dass MAD = f * STD mit f irgendwo zwischen 0,78 und 0,80 für einen Satz von zufälligen Stichproben mit Gaußverteilung.
quelle
Amar Sagoo hat einen sehr guten Artikel, der dies erklärt: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]
Um meinen eigenen Versuch eines intuitiven Verständnisses hinzuzufügen:
Die mittlere Abweichung ist eine anständige Methode, um zu erfragen, wie weit ein hypothetischer "Durchschnitts" -Punkt vom Mittelwert entfernt ist, aber es funktioniert nicht wirklich, um zu erfragen, wie weit alle Punkte voneinander entfernt sind oder wie "verteilt" die Daten sind.
Die Standardabweichung fragt, wie weit alle Punkte voneinander entfernt sind. Sie enthält also mehr nützliche Informationen als nur die mittlere Abweichung (weshalb die mittlere Abweichung normalerweise nur als Sprungbrett für das Verständnis der Standardabweichung verwendet wird).
Eine gute Analogie ist der Satz von Pythagoras. Der Satz von Pythagoras sagt uns den Abstand zwischen Punkten in zwei Dimensionen, indem wir den horizontalen Abstand und den vertikalen Abstand nehmen, sie quadrieren, die Quadrate addieren und die Quadratwurzel der Summe ziehen.
Bei genauerer Betrachtung entspricht die Formel für die (Populations-) Standardabweichung im Wesentlichen dem Satz des Pythagoras, weist jedoch weit mehr als zwei Dimensionen auf (und verwendet den Abstand von jedem Punkt zum Mittelwert als Abstand in jeder Dimension). Als solches liefert es das genaueste Bild der "Entfernung" zwischen allen Punkten in Ihrem Datensatz.
Um diese Analogie ein wenig voranzutreiben, würde die mittlere absolute Abweichung dem Durchschnitt der horizontalen und vertikalen Abstände entsprechen, der kürzer ist als der Gesamtabstand, während die absolute Abweichung die horizontalen und vertikalen Abstände addiert, die länger sind als die tatsächliche Entfernung.
quelle
Die Standardabweichung repräsentiert die Streuung aufgrund zufälliger Prozesse. Insbesondere weisen viele physikalische Messungen, von denen erwartet wird, dass sie auf der Summe vieler unabhängiger Prozesse beruhen, normale (Glockenkurven-) Verteilungen auf.
Mit anderen Worten, die Standardabweichung ist ein Begriff, der sich aus der Addition unabhängiger Zufallsvariablen ergibt. Daher bin ich mit einigen der hier gegebenen Antworten nicht einverstanden - Standardabweichung ist nicht nur eine Alternative zur mittleren Abweichung, die "für spätere Berechnungen bequemer ist". Standardabweichung ist der richtige Weg , um Dispersion für normalverteilte Phänomene zu modellieren.
Wenn Sie sich die Gleichung ansehen, werden Sie feststellen, dass die Standardabweichung größere Abweichungen vom Mittelwert stärker gewichtet. Intuitiv kann man sich die mittlere Abweichung als Messung der tatsächlichen Durchschnittsabweichung vom Mittelwert vorstellen, während die Standardabweichung eine glockenförmige, auch als "normale" Verteilung um den Mittelwert darstellt. Wenn Ihre Daten also normal verteilt sind, gibt die Standardabweichung an, dass bei einer Stichprobe von mehr als 68% der Werte innerhalb einer Standardabweichung um den Mittelwert gefunden werden.
Wenn Sie dagegen eine einzelne Zufallsvariable haben, sieht die Verteilung möglicherweise wie ein Rechteck aus, wobei die gleiche Wahrscheinlichkeit besteht, dass Werte irgendwo in einem Bereich auftreten. In diesem Fall ist die mittlere Abweichung möglicherweise angemessener.
TL; DR Wenn Sie Daten haben, die auf viele zugrunde liegende zufällige Prozesse zurückzuführen sind oder von denen Sie einfach wissen, dass sie normal verteilt sind, verwenden Sie die Standardabweichungsfunktion.
quelle