Funktioniert die Varianz nur bei normalverteilten Daten (als Maß für die Streuung)?

Es heißt in Wikipedia

Die Rolle der Normalverteilung im zentralen Grenzwertsatz ist teilweise für die Prävalenz der Varianz in Wahrscheinlichkeit und Statistik verantwortlich.

Ich verstehe dies als
Wenn wir Varianz / SD als Maß für die Streuung verwenden, suchen wir tatsächlich nach dem "Skalierungsparameter" einer Normalverteilung, da eine zufällige Zufallsvariable wahrscheinlich ungefähr einer Normalverteilung zu CLT folgt.

Ist Varianz / SD für den Fall, dass die Daten nicht normal verteilt sind, immer noch ein vernünftiges Maß für die Streuung?

Angenommen, die Daten sind gleichmäßig verteilt, die durchschnittliche absolute Abweichung scheint ein besseres Maß für die Streuung zu sein als die Varianz, da sie als "Skalierungsparameter" für die gleichmäßige Verteilung angesehen werden kann, habe ich Recht?

Update
Ich meine, ich habe zwei Sätze von Proben, einer ist {1,1,1,-1,-1,-1}und der andere ist aus einer Normalverteilung , ihre Varianzen sind beide 1. Die beiden Sätze werden mit dem gleichen Dispersionsgrad betrachtet wenn wir Varianz als Maß verwenden. $N(0,1)$

Aber es fühlt sich so an, als würden wir beide mit Nachdruck als Gauß behandeln und dann die Verteilungsparameter herausarbeiten und sagen: "Ja, sie sind in Bezug auf die Streuung gleich."

self-study normal-distribution variance dontloo
quelle

Inwiefern meinst du "Arbeit" im Titel? An was arbeiten? Bei der Schätzung der Populationsvarianz oder etwas anderes? Gemessen wie? Inwiefern beabsichtigen Sie das Wort "besser" im letzten Absatz? Besser was genau? Wenn Sie nach einer Schätzung der Streuung mit geringer Varianz in einer allgemeinen kontinuierlichen Gleichverteilung suchen, würde ich nicht die durchschnittliche absolute Abweichung verwenden, sondern eine Funktion des Bereichs.

Glen_b -State Monica

@Glen_b Ich bin mir nicht sicher, ob ich vielleicht als Maß für Dispersion / Abweichung / Diskrepanz arbeite, vielleicht besser in dem Sinne, dass der Maßstab einer gleichmäßigen Verteilung mit SD nicht doppelt so groß ist wie der einer gleichmäßigen Verteilung mit SD , ist die durchschnittliche absolute Abweichung nicht nur eine Funktion des Bereichs?

σ

$\sigma$

0.5 σ

$0.5\sigma$

Dontloo

Für die Uniform sind die durchschnittliche absolute Abweichung der Grundgesamtheit und die Standardabweichung der Grundgesamtheit beide Funktionen des Bevölkerungsbereichs (und umgekehrt - wenn Sie eine von ihnen kennen, kennen Sie alle anderen), aber die durchschnittliche absolute Abweichung der Stichprobe, die Stichprobe sd und der Probenbereich ist nicht gleich gut darin, sie zu schätzen. Wenn Ihr Maß für "Arbeiten" / "Güte" beispielsweise die Varianz des Schätzers ist, ist - zumindest bei großen Stichproben - ein Vielfaches des Stichprobenbereichs der beste Weg, um alle drei zu schätzen. Aber wenn sich Ihre Kriterien für das, was "gut" ist, ändern, könnte etwas anderes besser sein.

Glen_b -State Monica

@Glen_b danke für deine Antwort, ich verstehe den Punkt, dass "Varianz genau das ist, was sie definiert, und sie hat nicht unbedingt etwas mit einer bestimmten Verteilung zu tun", was ich meinte, wenn sie als Maß für verwendet wird Dispersion scheint es nicht die beste Wahl für nicht-Gaußsche (oder ähnliche) Verteilungen zu sein.

Dontloo

Vielleicht haben Sie die Standardabweichung und Varianz mit dem Gaußschen Wert verknüpft, weil Ihre erste intensive Belichtung mit der Gaußschen Verteilung und ihren Transformationen wie der Student-t-Verteilung zusammenhängt. Es könnte besser sein, Varianz als ein Merkmal zu betrachten, da eine Nase ein Merkmal von Tieren ist. Wenn es keine Nase hat, könnte es ein Baum sein. Höhe ist ein Merkmal. Ein Baum kann fünf Fuß hoch sein, wenn er mindestens jung ist, und ein Mensch kann fünf Fuß groß sein. Es ist ein Deskriptor einer Distribution, aber nicht der einzige Deskriptor einer Distribution.

Dave Harris

Antworten:

Ihre Frage ist etwas vage, aber nein, Varianz wird aufgrund ihrer Assoziation mit der Normalverteilung nicht verwendet. Die meisten Verteilungen haben mindestens einen Mittelwert und eine Varianz. Einige haben keine Varianz. Einige können entweder eine Varianz haben oder nicht. Einige haben keinen Mittelwert und daher keine Varianz.

Nur zur mentalen Klärung auf Ihrer Seite, wenn eine Verteilung einen Mittelwert hat, dann aber wenn nicht, dann . Das heißt, es zieht sich nirgendwo hin und jede Berechnung schwebt nur um die reelle Zahlenlinie. Es hat nichts zu bedeuten. Gleiches gilt, wenn Sie eine Standardabweichung für eine Verteilung ohne solche berechnen. Es hat keine Bedeutung. $\bar{x}\approx\mu,$ $\bar{x}\approx\text{nothing}$

Die Varianz ist eine Eigenschaft einer Verteilung. Sie haben insofern Recht, als es verwendet werden kann, um das Problem zu skalieren, aber es ist tiefer als das. In einigen theoretischen Rahmenbedingungen ist dies ein Maß für unsere Unwissenheit oder genauer gesagt für unsere Unsicherheit. In anderen Fällen wird gemessen, wie groß die Auswirkung einer Chance auf die Ergebnisse sein kann.

Obwohl Varianz eine Konzeptualisierung der Dispersion ist, ist sie eine unvollständige Konzeptualisierung. Sowohl Schrägstellung als auch Kurtosis erklären weiter, wie die Dispersion auf ein Problem wirkt.

Für viele Probleme in einem Nullhypothesen-Denkrahmen vereinfacht der zentrale Grenzwertsatz die Diskussion von Problemen und es schadet daher nicht, dass eine Verbindung zwischen der Normalverteilung mit ihren sehr genau definierten Verteilungseigenschaften und der Verwendung von besteht die Standardabweichung. Dies gilt jedoch eher für einfache als für komplexe Probleme. Dies gilt auch weniger für Bayes'sche Methoden, die keine Nullhypothese verwenden und nicht von der Stichprobenverteilung des Schätzers abhängen.

Die durchschnittliche absolute Abweichung ist ein wertvolles Werkzeug bei parameterfreien und verteilungsfreien Methoden, jedoch weniger wertvoll für die gleichmäßige Verteilung. Wenn Sie tatsächlich eine begrenzte Gleichverteilung hatten, sind der Mittelwert und die Varianz bekannt.

Lassen Sie mich Ihnen ein einheitliches Verteilungsproblem geben, das möglicherweise nicht so einfach ist, wie Sie denken. Bedenken Sie, dass ein neuer feindlicher Kampfpanzer auf dem Schlachtfeld aufgetaucht ist. Sie wissen nicht, wie viele sie haben, geschweige denn, dass sie existierten. Sie möchten die Gesamtzahl der Tanks schätzen.

Panzer haben Seriennummern an ihren Motoren oder waren es gewohnt, bevor jemand dies herausfand. Die Wahrscheinlichkeit, eine bestimmte Seriennummer zu erfassen, beträgt wobei die Summe der Tanks ist. Natürlich kennen Sie , daher ist dies ein interessantes Problem. Sie müssen N kennen. Sie können nur die Verteilung der erfassten Seriennummern sehen und nicht wissen, ob die größte erfasste Nummer auch der zuletzt gebaute Panzer ist. Es ist wahrscheinlich nicht. $1/N$ $N$ $N$

In diesem Fall bieten der Mittelwert und die Standardabweichung die leistungsstärksten Werkzeuge zur Lösung des Problems, obwohl die Intuition als schlechter Schätzer angesehen wird.

Es ist wahr, dass es ein schlechter Schätzer für bestimmte Probleme ist, aber Sie müssen sie von Fall zu Fall lernen.

Die Auswahl der statistischen Tools basiert auf den Anforderungen, mathematischen Regeln und Kompromissen zwischen den tatsächlichen Kosten und Einschränkungen der Welt und den Anforderungen des Problems. Manchmal ist das die Varianz, aber manchmal nicht. Am besten lernen Sie, warum die Regeln so gestaltet sind, wie sie sind, und das ist zu lang für eine Veröffentlichung hier.

Ich würde ein gutes Praktikerbuch über nichtparametrische Statistiken empfehlen, und wenn Sie Kalkül hatten, ein gutes Einführungsbuch über Bayes'sche Methoden.

Dave Harris
quelle

Im Zusammenhang mit dem deutschen Panzerproblem, falls jemand sowohl Geschichte als auch Panzer und Statistiken mag: en.wikipedia.org/wiki/German_tank_problem

Beyer

Vielen Dank für die Antwort, nur habe ich nicht ganz verfolgt, wie die SD der Proben bei German Tank Problem hilft? Ich sehe nur die Verwendung der SD der Schätzung (aus dem obigen Link).

Dontloo

Zunächst müssen wir uns über die Unterscheidung zwischen einem Maß für die Variabilität einer Verteilung (wie z. B. ihrer Standardabweichung oder ihrer mittleren Abweichung oder ihrem Bereich) und der besten Methode zur Schätzung dieses Maßes aus einer Stichprobe im Klaren sein. Wenn Ihre Verteilung beispielsweise gleichmäßig ist, ist die beste Stichprobenschätzung der mittleren Abweichung der Population vom Mittelwert nicht die durchschnittliche Abweichung der Stichprobe - tatsächlich ist ein Bruchteil des Bereichs im Allgemeinen viel besser.

(Wenn Sie wirklich nicht wissen, mit welcher Distribution Sie sich möglicherweise befassen, sind solche Überlegungen möglicherweise keine große Hilfe.)
Warum also die Variabilität der Bevölkerung anhand der Varianz messen?

Die Varianz (und damit die Standardabweichung) hat eine ganz bestimmte Eigenschaft, die von anderen Variabilitätsmaßen nicht geteilt wird. Dies ist eine sehr einfache Form für die Varianz von Summen (und allgemeiner linearen Kombinationen) von Variablen.

Wenn Sie unabhängig sind, wird die einfache Form noch viel einfacher.

Insbesondere unter Unabhängigkeit ist und aus diesem Grund ist die Standardabweichung auch in ihrer Form recht einfach. Der Fall der Nichtunabhängigkeit ist nicht viel komplizierter. $\text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y)$

Andere Variabilitätsmaße haben keine so einfache Eigenschaft.

Dies macht Varianz (und damit Standardabweichung) zu sehr attraktiven Methoden zur Messung der Variabilität von Verteilungen.
Ein zweiter Grund ist, dass der Mittelwert (der oft als natürliches Standortmaß angesehen wird) der Standort ist, der eine quadratische Fehlerverlustfunktion minimiert - und wenn Sie ihn minimieren, erhalten Sie die Varianz. Viele Menschen sehen eine quadratische Fehlerverlustfunktion als natürlich oder nützlich an, und in diesem Fall wird die Varianz wiederum zu einem natürlichen Maß für die Variation.

Glen_b -State Monica
quelle

Aber ich habe die statistische Bedeutung des quadratischen Fehlerverlusts immer als Maximierung der Log-Wahrscheinlichkeit unter einer Gaußschen Rauschannahme verstanden, die sich wiederum aus der CLT ergibt.

Dontloo

Die Prävalenz der Varianz liegt also hauptsächlich an ihrer mathematischen Zweckmäßigkeit?

Dontloo

@dontloo Um eine so formulierte Frage zu beantworten, die Spekulation erfordert, ist die Traktierbarkeit ein Grund, Varianz zu verwenden. Sie fordern mich auf, einen Anspruch geltend zu machen, für den ich keine ausreichenden Beweise habe (es gibt mehrere Gründe - einschließlich einiger, die ich nicht aufgeführt habe, wie z. B. einen Grad an Status Quo-Voreingenommenheit -, aber einen als primären geltend zu machen Ursache würde Beweise erfordern, die ich nicht besitze). Ich würde vermuten, dass die oben genannten Gründe 2 und 3 starke und wohl ausreichende Gründe für die Prävalenz sind.

Glen_b -Rate State Monica