Es heißt in Wikipedia
Die Rolle der Normalverteilung im zentralen Grenzwertsatz ist teilweise für die Prävalenz der Varianz in Wahrscheinlichkeit und Statistik verantwortlich.
Ich verstehe dies als
Wenn wir Varianz / SD als Maß für die Streuung verwenden, suchen wir tatsächlich nach dem "Skalierungsparameter" einer Normalverteilung, da eine zufällige Zufallsvariable wahrscheinlich ungefähr einer Normalverteilung zu CLT folgt.
Ist Varianz / SD für den Fall, dass die Daten nicht normal verteilt sind, immer noch ein vernünftiges Maß für die Streuung?
Angenommen, die Daten sind gleichmäßig verteilt, die durchschnittliche absolute Abweichung scheint ein besseres Maß für die Streuung zu sein als die Varianz, da sie als "Skalierungsparameter" für die gleichmäßige Verteilung angesehen werden kann, habe ich Recht?
Update
Ich meine, ich habe zwei Sätze von Proben, einer ist {1,1,1,-1,-1,-1}
und der andere ist aus einer Normalverteilung , ihre Varianzen sind beide 1. Die beiden Sätze werden mit dem gleichen Dispersionsgrad betrachtet wenn wir Varianz als Maß verwenden.
Aber es fühlt sich so an, als würden wir beide mit Nachdruck als Gauß behandeln und dann die Verteilungsparameter herausarbeiten und sagen: "Ja, sie sind in Bezug auf die Streuung gleich."
quelle
Antworten:
Ihre Frage ist etwas vage, aber nein, Varianz wird aufgrund ihrer Assoziation mit der Normalverteilung nicht verwendet. Die meisten Verteilungen haben mindestens einen Mittelwert und eine Varianz. Einige haben keine Varianz. Einige können entweder eine Varianz haben oder nicht. Einige haben keinen Mittelwert und daher keine Varianz.
Nur zur mentalen Klärung auf Ihrer Seite, wenn eine Verteilung einen Mittelwert hat, dann aber wenn nicht, dann . Das heißt, es zieht sich nirgendwo hin und jede Berechnung schwebt nur um die reelle Zahlenlinie. Es hat nichts zu bedeuten. Gleiches gilt, wenn Sie eine Standardabweichung für eine Verteilung ohne solche berechnen. Es hat keine Bedeutung.x¯≈μ, x¯≈nothing
Die Varianz ist eine Eigenschaft einer Verteilung. Sie haben insofern Recht, als es verwendet werden kann, um das Problem zu skalieren, aber es ist tiefer als das. In einigen theoretischen Rahmenbedingungen ist dies ein Maß für unsere Unwissenheit oder genauer gesagt für unsere Unsicherheit. In anderen Fällen wird gemessen, wie groß die Auswirkung einer Chance auf die Ergebnisse sein kann.
Obwohl Varianz eine Konzeptualisierung der Dispersion ist, ist sie eine unvollständige Konzeptualisierung. Sowohl Schrägstellung als auch Kurtosis erklären weiter, wie die Dispersion auf ein Problem wirkt.
Für viele Probleme in einem Nullhypothesen-Denkrahmen vereinfacht der zentrale Grenzwertsatz die Diskussion von Problemen und es schadet daher nicht, dass eine Verbindung zwischen der Normalverteilung mit ihren sehr genau definierten Verteilungseigenschaften und der Verwendung von besteht die Standardabweichung. Dies gilt jedoch eher für einfache als für komplexe Probleme. Dies gilt auch weniger für Bayes'sche Methoden, die keine Nullhypothese verwenden und nicht von der Stichprobenverteilung des Schätzers abhängen.
Die durchschnittliche absolute Abweichung ist ein wertvolles Werkzeug bei parameterfreien und verteilungsfreien Methoden, jedoch weniger wertvoll für die gleichmäßige Verteilung. Wenn Sie tatsächlich eine begrenzte Gleichverteilung hatten, sind der Mittelwert und die Varianz bekannt.
Lassen Sie mich Ihnen ein einheitliches Verteilungsproblem geben, das möglicherweise nicht so einfach ist, wie Sie denken. Bedenken Sie, dass ein neuer feindlicher Kampfpanzer auf dem Schlachtfeld aufgetaucht ist. Sie wissen nicht, wie viele sie haben, geschweige denn, dass sie existierten. Sie möchten die Gesamtzahl der Tanks schätzen.
Panzer haben Seriennummern an ihren Motoren oder waren es gewohnt, bevor jemand dies herausfand. Die Wahrscheinlichkeit, eine bestimmte Seriennummer zu erfassen, beträgt wobei die Summe der Tanks ist. Natürlich kennen Sie , daher ist dies ein interessantes Problem. Sie müssen N kennen. Sie können nur die Verteilung der erfassten Seriennummern sehen und nicht wissen, ob die größte erfasste Nummer auch der zuletzt gebaute Panzer ist. Es ist wahrscheinlich nicht.1/N N N
In diesem Fall bieten der Mittelwert und die Standardabweichung die leistungsstärksten Werkzeuge zur Lösung des Problems, obwohl die Intuition als schlechter Schätzer angesehen wird.
Es ist wahr, dass es ein schlechter Schätzer für bestimmte Probleme ist, aber Sie müssen sie von Fall zu Fall lernen.
Die Auswahl der statistischen Tools basiert auf den Anforderungen, mathematischen Regeln und Kompromissen zwischen den tatsächlichen Kosten und Einschränkungen der Welt und den Anforderungen des Problems. Manchmal ist das die Varianz, aber manchmal nicht. Am besten lernen Sie, warum die Regeln so gestaltet sind, wie sie sind, und das ist zu lang für eine Veröffentlichung hier.
Ich würde ein gutes Praktikerbuch über nichtparametrische Statistiken empfehlen, und wenn Sie Kalkül hatten, ein gutes Einführungsbuch über Bayes'sche Methoden.
quelle
Zunächst müssen wir uns über die Unterscheidung zwischen einem Maß für die Variabilität einer Verteilung (wie z. B. ihrer Standardabweichung oder ihrer mittleren Abweichung oder ihrem Bereich) und der besten Methode zur Schätzung dieses Maßes aus einer Stichprobe im Klaren sein. Wenn Ihre Verteilung beispielsweise gleichmäßig ist, ist die beste Stichprobenschätzung der mittleren Abweichung der Population vom Mittelwert nicht die durchschnittliche Abweichung der Stichprobe - tatsächlich ist ein Bruchteil des Bereichs im Allgemeinen viel besser.
(Wenn Sie wirklich nicht wissen, mit welcher Distribution Sie sich möglicherweise befassen, sind solche Überlegungen möglicherweise keine große Hilfe.)
Warum also die Variabilität der Bevölkerung anhand der Varianz messen?
Die Varianz (und damit die Standardabweichung) hat eine ganz bestimmte Eigenschaft, die von anderen Variabilitätsmaßen nicht geteilt wird. Dies ist eine sehr einfache Form für die Varianz von Summen (und allgemeiner linearen Kombinationen) von Variablen.
Wenn Sie unabhängig sind, wird die einfache Form noch viel einfacher.
Insbesondere unter Unabhängigkeit ist und aus diesem Grund ist die Standardabweichung auch in ihrer Form recht einfach. Der Fall der Nichtunabhängigkeit ist nicht viel komplizierter.Var(X+Y)=Var(X)+Var(Y)
Andere Variabilitätsmaße haben keine so einfache Eigenschaft.
Dies macht Varianz (und damit Standardabweichung) zu sehr attraktiven Methoden zur Messung der Variabilität von Verteilungen.
Ein zweiter Grund ist, dass der Mittelwert (der oft als natürliches Standortmaß angesehen wird) der Standort ist, der eine quadratische Fehlerverlustfunktion minimiert - und wenn Sie ihn minimieren, erhalten Sie die Varianz. Viele Menschen sehen eine quadratische Fehlerverlustfunktion als natürlich oder nützlich an, und in diesem Fall wird die Varianz wiederum zu einem natürlichen Maß für die Variation.
quelle