Bei der Definition der Standardabweichung, warum müssen wir Quadrat der Differenz aus dem Mittelwert der Mittelwert (E) und nehmen Sie die bekommen Quadratwurzel zurück am Ende? Können wir nicht stattdessen einfach den absoluten Wert der Differenz nehmen und den erwarteten Wert (Mittelwert) von diesen erhalten, und würde das nicht auch die Variation der Daten zeigen? Die Zahl wird sich von der Quadratmethode unterscheiden (die Absolutwertmethode wird kleiner sein), aber sie sollte immer noch die Datenverteilung anzeigen. Weiß jemand, warum wir diesen quadratischen Ansatz als Standard verwenden?
Die Definition der Standardabweichung:
Können wir nicht stattdessen einfach den absoluten Wert nehmen und trotzdem ein gutes Maß sein?
Antworten:
Wenn das Ziel der Standardabweichung darin besteht, die Streuung eines symmetrischen Datensatzes zusammenzufassen (dh im Allgemeinen, wie weit die einzelnen Daten vom Mittelwert entfernt sind), benötigen wir eine gute Methode, um zu definieren, wie diese Streuung gemessen werden soll.
Die Vorteile des Quadrierens umfassen:
Die Quadratur hat jedoch ein Problem als Maß für die Streuung und das heißt, dass die Einheiten alle quadriert sind, wohingegen wir es vorziehen könnten, dass die Streuung in den gleichen Einheiten wie die ursprünglichen Daten erfolgt (man denke an quadratische Pfund, quadratische Dollar oder quadratische Äpfel). . Daher erlaubt uns die Quadratwurzel, zu den ursprünglichen Einheiten zurückzukehren.
Ich nehme an, Sie könnten sagen, dass die absolute Differenz der Verbreitung von Daten das gleiche Gewicht beimisst, während das Quadrieren die Extreme betont. Technisch gesehen erleichtert das Quadrieren die Arbeit mit der Algebra jedoch erheblich und bietet Eigenschaften, die mit der absoluten Methode nicht möglich sind (z. B. ist die Varianz gleich dem erwarteten Wert des Verteilungsquadrats abzüglich des Quadrats der Mittelwert der Verteilung)
Es ist jedoch wichtig zu beachten, dass es keinen Grund gibt, den absoluten Unterschied nicht zu akzeptieren, wenn dies Ihre Präferenz dafür ist, wie Sie "Spread" betrachten möchten (so wie manche Leute 5% als eine magische Schwelle fürWerte sehen, wenn es tatsächlich situationsabhängig ist). Tatsächlich gibt es mehrere konkurrierende Methoden zur Messung der Ausbreitung.p
Meine Ansicht ist , die quadrierten Werte zu verwenden , weil Ich mag denken , wie sie sich auf den Satz des Pythagoras von Statistik: ... das hilft mir auch daran erinnern , dass , wenn sie mit unabhängigen Zufallsvariablen arbeiten , Varianzen hinzufügen, Standardabweichungen nicht. Aber das ist nur meine persönliche subjektive Präferenz, die ich meistens nur als Erinnerungshilfe benutze. Sie können diesen Absatz ignorieren.c=a2+b2−−−−−−√
Eine ausführlichere Analyse finden Sie hier .
quelle
Die quadratische Differenz hat bessere mathematische Eigenschaften. Es ist kontinuierlich differenzierbar (schön, wenn Sie es minimieren möchten), es ist eine ausreichende Statistik für die Gaußsche Verteilung und es ist (eine Version von) der L2-Norm, die sich als nützlich erweist, um die Konvergenz zu beweisen und so weiter.
Die mittlere absolute Abweichung (die von Ihnen vorgeschlagene Absolutwertnotation) wird ebenfalls als Maß für die Streuung verwendet, ist jedoch nicht so "gutmütig" wie der quadratische Fehler.
quelle
Man kann sich das so vorstellen, dass die Standardabweichung einem "Abstand vom Mittelwert" ähnelt.
Vergleichen Sie dies mit Entfernungen im euklidischen Raum - dies gibt Ihnen die wahre Entfernung, bei der das, was Sie vorgeschlagen haben (was übrigens die absolute Abweichung ist ), eher einer Manhattan-Entfernungsberechnung ähnelt .
quelle
Der Grund , warum wir die Standardabweichung anstelle des absoluten Fehlers berechnen, ist, dass wir annehmen, dass der Fehler normal verteilt ist . Es ist ein Teil des Modells.
Angenommen, Sie haben sehr kleine Längen mit einem Lineal gemessen, dann ist die Standardabweichung eine schlechte Metrik für Fehler, da Sie wissen, dass Sie niemals versehentlich eine negative Länge messen werden. Eine bessere Metrik wäre eine, mit deren Hilfe Sie eine Gamma-Verteilung an Ihre Messungen anpassen können:
Wie die Standardabweichung ist auch diese nicht negativ und differenzierbar, sie ist jedoch eine bessere Fehlerstatistik für dieses Problem.
quelle
Die Antwort, die mich am besten befriedigt hat, ist, dass sie auf natürliche Weise aus der Verallgemeinerung einer Stichprobe in den n-dimensionalen euklidischen Raum herausfällt. Es ist sicherlich fraglich, ob dies getan werden sollte, aber auf jeden Fall:
Mit diesem Ansatz erhalten Sie auch eine geometrische Interpretation für die Korrelation .ρ^=cos∠(x~⃗ ,y~⃗ )
quelle
Die Differenz zum Mittelwert zu quadrieren hat mehrere Gründe.
Varianz ist definiert als das 2. Moment der Abweichung (das RV ist hier ) und somit ist das Quadrat als Moment einfach die Erwartung höherer Potenzen der Zufallsvariablen.(x−μ)
Ein Quadrat im Gegensatz zur Absolutwertfunktion ergibt eine schöne stetige und differenzierbare Funktion (Absolutwert ist bei 0 nicht differenzierbar) - was sie zur natürlichen Wahl macht, insbesondere im Zusammenhang mit der Schätzung und der Regressionsanalyse.
Die quadratische Formulierung fällt natürlich auch aus den Parametern der Normalverteilung heraus.
quelle
Ein weiterer Grund (zusätzlich zu den hervorragenden oben) stammt von Fisher selbst, der zeigte, dass die Standardabweichung "effizienter" ist als die absolute Abweichung. Effizient hängt hier davon ab, wie stark eine Statistik bei verschiedenen Stichproben aus einer Population im Wert schwankt. Wenn Ihre Grundgesamtheit normal verteilt ist, führt die Standardabweichung verschiedener Stichproben dieser Grundgesamtheit im Durchschnitt zu Werten, die einander ziemlich ähnlich sind, wohingegen die absolute Abweichung zu Zahlen führt, die sich etwas stärker ausbreiten. Dies ist natürlich unter idealen Umständen der Fall, aber dieser Grund hat viele Menschen überzeugt (und auch die Mathematik ist sauberer), sodass die meisten Menschen mit Standardabweichungen arbeiteten.
quelle
Nur damit die Leute Bescheid wissen, gibt es eine Math Overflow-Frage zum selben Thema.
Warum-ist-es-so-cool-auf-quadratische-Zahlen-bezogen-auf-das-Finden-der-Standardabweichung?
Die Nachricht zum Mitnehmen ist, dass die Verwendung der Quadratwurzel der Varianz zu einfacheren Berechnungen führt. Eine ähnliche Antwort wird oben von Rich und Reed gegeben.
quelle
Beachten Sie, was dies ermöglicht: Sagen wir, ich werfe 900 Mal eine faire Münze. Wie hoch ist die Wahrscheinlichkeit, dass die Anzahl der Köpfe zwischen 440 und 455 liegt? Bestimmen Sie einfach die erwartete Anzahl der Köpfe ( ) und die Varianz der Anzahl der Köpfe ( ) und bestimmen Sie dann die Wahrscheinlichkeit mit einer Normalverteilung (oder Gaußschen Verteilung) mit der Erwartung und einer Standardabweichung zwischen und . Abraham de Moivre hat dies im 18. Jahrhundert mit Münzwürfen getan und damit erstmals gezeigt, dass die glockenförmige Kurve etwas wert ist.225 = 15 2 450 15 439,5 455,5450 225=152 450 15 439.5 455.5
quelle
Ich denke, der Kontrast zwischen der Verwendung von absoluten Abweichungen und quadratischen Abweichungen wird deutlicher, wenn Sie über eine einzelne Variable hinausgehen und über lineare Regression nachdenken. Es gibt eine nette Diskussion unter http://en.wikipedia.org/wiki/Least_absolute_deviations , insbesondere im Abschnitt "Kontrastieren der kleinsten Quadrate mit den kleinsten absoluten Abweichungen", der auf einige Schülerübungen mit einer übersichtlichen Reihe von Applets unter http: // www verweist .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .
Zusammenfassend lässt sich sagen, dass kleinste absolute Abweichungen für Ausreißer robuster sind als gewöhnliche kleinste Quadrate, dass sie jedoch instabil sein können (eine kleine Änderung auch nur eines einzelnen Datums kann eine große Änderung der angepassten Linie bewirken) und nicht immer eine eindeutige Lösung bieten eine ganze Reihe von eingepassten Linien. Auch kleinste absolute Abweichungen erfordern iterative Methoden, während gewöhnliche kleinste Quadrate eine einfache Lösung in geschlossener Form bieten, obwohl dies heute keine so große Sache ist wie zu Zeiten von Gauß und Legendre.
quelle
Es gibt viele Gründe; wahrscheinlich ist die Hauptsache, dass es als Parameter der Normalverteilung gut funktioniert.
quelle
In vielerlei Hinsicht führt die Verwendung der Standardabweichung zur Zusammenfassung der Streuung zu einer Schlussfolgerung. Man könnte sagen, dass SD implizit eine symmetrische Verteilung annimmt, weil der Abstand unterhalb des Mittelwerts als der Abstand oberhalb des Mittelwerts gleich behandelt wird. Der SD ist für Nicht-Statistiker überraschend schwer zu interpretieren. Man könnte argumentieren, dass Ginis mittlerer Unterschied eine breitere Anwendung hat und bedeutend deutlicher zu interpretieren ist. Es ist nicht erforderlich, die Wahl eines Maßes für die zentrale Tendenz anzugeben, wie dies bei der Verwendung von SD für den Mittelwert der Fall ist. Ginis mittlere Differenz ist die durchschnittliche absolute Differenz zwischen zwei verschiedenen Beobachtungen. Abgesehen davon, dass es robust und leicht zu interpretieren ist, ist es 0,98 so effizient wie SD, wenn die Verteilung tatsächlich Gauß ist.
quelle
Das Schätzen der Standardabweichung einer Verteilung erfordert die Auswahl eines Abstands.
Jeder der folgenden Abstände kann verwendet werden:
Wir verwenden normalerweise den natürlichen euklidischen Abstand ( ), den jeder im täglichen Leben verwendet. Der von Ihnen vorgeschlagene Abstand ist der mit . Beide sind gute Kandidaten, aber sie sind unterschiedlich.n=2 n=1
Man könnte sich auch für entscheiden .n=3
Ich bin mir nicht sicher, ob Ihnen meine Antwort gefallen wird. Mein Punkt im Gegensatz zu anderen ist nicht zu zeigen, dass besser ist. Ich denke, wenn Sie die Standardabweichung einer Verteilung schätzen wollen, können Sie absolut einen anderen Abstand verwenden.n=2
quelle
Es hängt davon ab, wovon Sie sprechen, wenn Sie "Verbreitung der Daten" sagen. Für mich könnte dies zwei Dinge bedeuten:
Für Punkt 1) gibt es keinen besonderen Grund, die Standardabweichung als Maß für die Streuung zu verwenden, es sei denn, Sie haben eine normale Stichprobenverteilung. Das Maß ist ein geeigneteres Maß im Fall einer Laplace-Sampling-Verteilung . Ich vermute, dass die Standardabweichung hier verwendet wird, weil die Intuition aus Punkt 2) übernommen wurde. Wahrscheinlich auch aufgrund des Erfolgs der Modellierung der kleinsten Quadrate im Allgemeinen, für die die Standardabweichung das geeignete Maß ist. Wahrscheinlich auch, weil die Berechnung von für die meisten Verteilungen im Allgemeinen einfacher ist als die Berechnung von .E ( X 2 ) E ( | X | )E(|X−μ|) E(X2) E(|X|)
Nun, für Punkt 2) gibt es einen sehr guten Grund, die Varianz / Standardabweichung als Maß für die Streuung in einem bestimmten, aber sehr häufigen Fall zu verwenden. Sie können es in der Laplace-Annäherung an einen Seitenzahn sehen. Schreiben Sie mit Daten und Vorinformation den posterioren Wert für einen Parameter wie :I θD I θ
Ich habe als Dummy-Variable verwendet, um anzuzeigen, dass der Nenner nicht von abhängt . Wenn der Posterior ein einzelnes, gut gerundetes Maximum hat (dh nicht zu nahe an einer "Grenze"), können wir die Log-Wahrscheinlichkeit um sein Maximum . Wenn wir die ersten beiden Terme der Taylor-Erweiterung nehmen, erhalten wir (unter Verwendung von Primzahl zur Differenzierung):t θ θmax
Aber wir haben hier das, weil ein "gut gerundetes" Maximum ist, , also haben wir:h ' ( θ max ) = 0θmax h′(θmax)=0
Wenn wir diese Annäherung anschließen, erhalten wir:
Was aber für die Notation eine Normalverteilung ist, mit einem Mittelwert gleich und einer Varianz gleichE(θ∣DI)≈θmax
( ist immer positiv, weil wir ein gut gerundetes Maximum haben). Das bedeutet, dass bei "regulären Problemen" (die meisten von ihnen) die Varianz die fundamentale Größe ist, die die Genauigkeit von Schätzungen für . Für Schätzungen, die auf einer großen Datenmenge basieren, ist die Standardabweichung theoretisch sehr sinnvoll - sie sagt Ihnen im Grunde alles, was Sie wissen müssen. Grundsätzlich gilt das gleiche Argument (mit den gleichen Bedingungen) im mehrdimensionalen Fall mit ist eine hessische Matrix. Auch hier sind die diagonalen Einträge im Wesentlichen Abweichungen.−h′′(θmax) θ h′′(θ)jk=∂h(θ)∂θj∂θk
Der Frequentist, der die Methode der maximalen Wahrscheinlichkeit verwendet, kommt im Wesentlichen zu dem gleichen Ergebnis, da die MLE tendenziell eine gewichtete Kombination der Daten ist, und für große Stichproben gilt der zentrale Grenzwertsatz, und Sie erhalten im Wesentlichen das gleiche Ergebnis, wenn wir aber mit vertauschten und : (Mal sehen, welches Paradigma mir am besten gefällt: P). In beiden Fällen ist die Standardabweichung bei der Parameterschätzung ein wichtiges theoretisches Maß für die Streuung.θ ≤ max p ( θ max ≤ θ ) ≤ N ( θ , [ - h " ( θ max ) ] - 1 )p(θ∣I)=1 θ θmax
quelle
"Warum die Differenz quadrieren" statt "Absolutwert nehmen"? Um genau zu antworten, gibt es Literatur, in der die Gründe für die Annahme und der Grund, warum die meisten dieser Gründe nicht zutreffen, angegeben sind. "Können wir nicht einfach den absoluten Wert nehmen ...?" Mir ist Literatur bekannt, in der die Antwort lautet: Ja, es wird getan, und es wird als vorteilhaft angesehen, dies zu tun.
Der Autor Gorard stellt zunächst fest, dass die Verwendung von Quadraten früher aus Gründen der Einfachheit der Berechnung übernommen wurde, diese ursprünglichen Gründe jedoch nicht mehr zutreffen. Gorard gibt zweitens an, dass OLS übernommen wurde, weil Fisher herausgefunden hat, dass die Ergebnisse von Analysen, die OLS verwendeten, geringere Abweichungen aufwiesen als diejenigen, die absolute Unterschiede verwendeten (grob ausgedrückt). Somit scheint es, dass OLS unter bestimmten idealen Umständen Vorteile haben kann; Gorard merkt jedoch weiter an, dass es einen gewissen Konsens gibt (und er behauptet, Fisher stimmte dem zu), dass unter realen Bedingungen (unvollständige Messung von Beobachtungen, ungleichmäßige Verteilungen, Studien einer Population ohne Rückschluss auf eine Stichprobe) die Verwendung von Quadraten schlechter ist als absolute Unterschiede.
Gorards Antwort auf Ihre Frage: "Können wir nicht stattdessen einfach den absoluten Wert der Differenz nehmen und den erwarteten Wert (Mittelwert) davon erhalten?" ist ja. Ein weiterer Vorteil ist, dass durch die Verwendung von Unterschieden Maßstäbe (Maßstäbe für Fehler und Abweichungen) entstehen, die sich auf die Art und Weise beziehen, wie wir diese Ideen im Leben erleben. Gorard sagt, stellen Sie sich Menschen vor, die die Restaurantrechnung gleichmäßig aufteilen, und einige könnten intuitiv bemerken, dass diese Methode unfair ist. Niemand dort wird die Fehler ausgleichen; Die Unterschiede sind der Punkt.
Mit absoluten Unterschieden, so stellt er fest, wird jede Beobachtung gleich behandelt, wohingegen durch Quadrieren der Unterschiede die vorhergesagten Beobachtungen eine schlechtere Gewichtung erhalten als die gut vorhergesagten Beobachtungen, was so aussieht, als könnten bestimmte Beobachtungen mehrfach in die Studie einbezogen werden. Zusammenfassend lässt sich sagen, dass es heutzutage nicht viele gute Gründe gibt, Quadrate zu verwenden, und dass die Verwendung absoluter Unterschiede im Gegensatz dazu Vorteile hat.
Verweise:
quelle
Weil Quadrate die Verwendung vieler anderer mathematischer Operationen oder Funktionen einfacher ermöglichen als absolute Werte.
Beispiel: Quadrate können problemlos integriert, differenziert, in trigonometrischen, logarithmischen und anderen Funktionen verwendet werden.
quelle
Beim Hinzufügen von Zufallsvariablen addieren sich deren Varianzen für alle Verteilungen. Varianz (und daher Standardabweichung) ist ein nützliches Maß für fast alle Verteilungen und ist in keiner Weise auf Gauß-Verteilungen (auch als "normale" Verteilungen bezeichnet) beschränkt. Das ist günstig, wenn wir es als unsere Fehlermaßnahme verwenden. Mangelnde Eindeutigkeit ist ein ernstes Problem bei absoluten Unterschieden, da es oft unendlich viele "Übereinstimmungen" im gleichen Maße gibt, und doch ist eindeutig die "Eins in der Mitte" am realistischsten zu bevorzugen. Auch bei heutigen Computern ist die Recheneffizienz von Bedeutung. Ich arbeite mit großen Datenmengen und die CPU-Zeit ist wichtig. Es gibt jedoch kein einziges absolutes "bestes" Maß für Residuen, wie einige frühere Antworten gezeigt haben. Unterschiedliche Umstände erfordern manchmal unterschiedliche Maßnahmen.
quelle
Natürlich können Sie die Streuung einer Verteilung in beliebiger Weise aussagekräftig beschreiben (absolute Abweichung, Quantile usw.).
Eine schöne Tatsache ist, dass die Varianz das zweite zentrale Moment ist und jede Verteilung durch ihre Momente eindeutig beschrieben wird, wenn sie existieren. Eine weitere nette Tatsache ist, dass die Varianz mathematisch viel besser erfassbar ist als jede vergleichbare Metrik. Eine andere Tatsache ist, dass die Varianz einer von zwei Parametern der Normalverteilung für die übliche Parametrisierung ist und die Normalverteilung nur zwei zentrale Momente ungleich Null aufweist, die genau diese beiden Parameter sind. Auch bei nicht normalen Distributionen kann es hilfreich sein, in einem normalen Rahmen zu denken.
Der Grund für die Standardabweichung ist meines Erachtens, dass in Anwendungen regelmäßig die Quadratwurzel der Varianz auftritt (z. B. um eine zufällige Varianble zu standardisieren), die einen Namen erforderlich machte.
quelle
Ein anderer und vielleicht intuitiverer Ansatz ist, wenn Sie über lineare Regression vs. mediane Regression nachdenken.
Angenommen, unser Modell lautet . Dann finden wir b durch Minimieren des erwarteten quadratischen Residuums, .bgr ; & bgr; = arg min b E ( y - x b ) 2E(y|x)=xβ β=argminbE(y−xb)2
Wenn unser Modell stattdessen Median , finden wir unsere Parameterschätzungen durch Minimierung der absoluten Residuen,.β = arg min b E | y - x b |(y|x)=xβ β=argminbE|y−xb|
Mit anderen Worten, ob Sie einen absoluten oder einen quadratischen Fehler verwenden möchten, hängt davon ab, ob Sie den erwarteten Wert oder den Medianwert modellieren möchten.
Wenn die Verteilung beispielsweise eine verzerrte Heteroskedastizität aufweist, besteht ein großer Unterschied darin, wie sich die Steigung des erwarteten Werts von über ändert und wie sich die Steigung auf den Medianwert von .x yy x y
Koenker und Hallock haben eine schöne Arbeit über Quantile Regression, wobei die mediane Regression ein Sonderfall ist: http://master272.com/finance/QR/QRJEP.pdf .
quelle
Meine Vermutung ist folgende: Die meisten Populationen (Verteilungen) tendieren dazu, sich um den Mittelwert zu versammeln. Je weiter ein Wert vom Mittelwert entfernt ist, desto seltener ist er. Um adäquat auszudrücken, wie "out of line" ein Wert ist, müssen sowohl der Abstand zum Mittelwert als auch die (normalerweise) Seltenheit des Auftretens berücksichtigt werden. Dies erfolgt durch Quadrieren der Differenz zum Mittelwert im Vergleich zu Werten, die geringere Abweichungen aufweisen. Wenn alle Abweichungen gemittelt sind, ist es in Ordnung, die Quadratwurzel zu ziehen, wodurch die Einheiten auf ihre ursprünglichen Abmessungen zurückgesetzt werden.
quelle
Quadrieren verstärkt größere Abweichungen.
Wenn Ihre Stichprobe Werte aufweist, die über das gesamte Diagramm verteilt sind, muss Ihre Standardabweichung etwas breiter sein, damit die 68,2% innerhalb der ersten Standardabweichung liegen. Wenn Ihre Daten tendenziell alle um den Mittelwert fallen, kann σ enger sein.
Einige sagen, dass es um Berechnungen zu vereinfachen ist. Die Verwendung der positiven Quadratwurzel des Quadrats hätte das gelöst, sodass dieses Argument nicht schwebt.
Wenn also algebraische Einfachheit das Ziel gewesen wäre, hätte es so ausgesehen:
Offensichtlich hat das Quadrieren auch den Effekt, äußere Fehler zu verstärken (doh!).
quelle
sqrt((x-mu)^2)
, ist Ihre Formel irreführend. Nur weil Quadrieren größere Abweichungen verstärkt, heißt das noch lange nicht, dass dies der Grund für den Vorzug der Varianz gegenüber der MAD ist . Wenn überhaupt, ist , dass eine neutrale Eigenschaft , da oft wir wollen etwas mehr robust wie die MAD . Schließlich ist die Tatsache, dass die Varianz mathematisch leichter zu bestimmen ist als die MAD , mathematisch gesehen ein viel tieferes Problem, als Sie in diesem Beitrag beschrieben haben.Wir quadrieren die Differenz der x zum Mittelwert, weil der euklidische Abstand proportional zur Quadratwurzel der Freiheitsgrade (Anzahl der x in einem Populationsmaß) das beste Maß für die Streuung ist.
Entfernung berechnen
Wie weit ist es von Punkt 0 bis Punkt 5?
Ok, das ist trivial, weil es eine einzige Dimension ist.
Wie ist die Entfernung für einen Punkt bei Punkt 0, 0 bis Punkt 3, 4?
Wenn wir nur eine Dimension gleichzeitig betreten können (wie in Stadtblöcken), addieren wir einfach die Zahlen. (Dies wird manchmal als Manhattan-Entfernung bezeichnet).
Aber was ist mit zwei Dimensionen auf einmal? Dann (nach dem Satz von Pythagoras, den wir alle in der High School gelernt haben) quadrieren wir den Abstand in jeder Dimension, summieren die Quadrate und ermitteln dann mit der Quadratwurzel den Abstand vom Ursprung zum Punkt.
Wie wäre es mit der Entfernung von einem Punkt bei 0, 0, 0 zu Punkt 1, 2, 2?
Das ist gerecht
weil die Distanz für die ersten beiden x das Bein für die Berechnung der Gesamtdistanz mit dem letzten x bildet.
Wir können die Regel der Quadratur des Abstands jeder Dimension weiter ausdehnen. Dies verallgemeinert sich auf das, was wir einen euklidischen Abstand nennen, für orthogonale Messungen im hyperdimensionalen Raum wie folgt:
und so ist die Summe der orthogonalen Quadrate die quadratische Entfernung:
Was macht eine Messung orthogonal (oder rechtwinklig) zu einer anderen? Voraussetzung ist, dass zwischen den beiden Messungen keine Beziehung besteht. Wir würden uns bemühen , dass diese Messungen unabhängig und individuell verteilt sind ( iid ).
Varianz
Erinnern Sie sich jetzt an die Formel für die Populationsvarianz (von der wir die Standardabweichung erhalten):
Wenn wir die Daten bereits durch Subtrahieren des Mittelwerts auf 0 zentriert haben, haben wir:
Wir sehen also, dass die Varianz nur der quadratische Abstand geteilt durch die Anzahl der Freiheitsgrade ist (die Anzahl der Dimensionen, auf denen die Variablen variieren können). Dies ist auch der durchschnittliche Beitrag zum pro Messung. "Mean Squared Varianz" wäre auch ein geeigneter Begriff.distance2
Standardabweichung
Dann haben wir die Standardabweichung, die nur die Quadratwurzel der Varianz ist:
Das ist äquivalent die Distanz , dividiert durch die Quadratwurzel der Freiheitsgrade:
Mittlere absolute Abweichung
Die mittlere absolute Abweichung (Mean Absolute Deviation, MAD) ist ein Maß für die Streuung, bei der der Manhattan-Abstand oder die Summe der absoluten Werte der Differenzen vom Mittelwert verwendet wird.
Unter der Annahme, dass die Daten zentriert sind (der subtrahierte Mittelwert), haben wir die Manhattan-Entfernung geteilt durch die Anzahl der Messungen:
Diskussion
Diese Tabelle gibt die obigen Informationen in einer präziseren Weise wieder:
Bemerkungen:
Hier sind 10 Simulationen von einer Million Proben aus der Standardnormalverteilung:
Fazit
Wir bevorzugen die quadratischen Differenzen bei der Berechnung eines Dispersionsmaßes, weil wir den euklidischen Abstand ausnutzen können, wodurch wir eine bessere diskriptive Statistik der Dispersion erhalten. Wenn es relativ extreme Werte gibt, wird dies in der Statistik durch die euklidische Distanz berücksichtigt, wohingegen die Manhattan-Distanz jeder Messung das gleiche Gewicht verleiht.
quelle