Dies mag für viele eine einfache Frage sein, aber hier ist sie:
Warum wird Varianz nicht als Differenz zwischen den aufeinander folgenden Werten definiert, anstatt als Differenz zum Durchschnitt der Werte?
Dies wäre die logischere Wahl für mich, ich schätze, ich habe offensichtlich einige Nachteile. Vielen Dank
BEARBEITEN:
Lassen Sie mich so klar wie möglich umformulieren. Das ist was ich meine:
- Angenommen, Sie haben einen Bereich von Zahlen, sortiert nach: 1,2,3,4,5
- Berechnen und summieren Sie (die absoluten) Differenzen (fortlaufend, zwischen jedem folgenden Wert, nicht paarweise) zwischen Werten (ohne den Durchschnitt zu verwenden).
- Teilen Sie durch die Anzahl der Unterschiede
- (Follow-up: Wäre die Antwort anders, wenn die Nummern nicht sortiert wären)
-> Was sind die Nachteile dieses Ansatzes gegenüber der Standardformel für die Varianz?
Antworten:
Der offensichtlichste Grund ist, dass die Werte häufig keine zeitliche Abfolge aufweisen. Wenn Sie also die Daten durcheinander bringen, hat dies keinen Einfluss auf die von den Daten übermittelten Informationen. Wenn wir Ihrer Methode folgen, erhalten Sie bei jedem Durcheinander der Daten eine andere Stichprobenvarianz.
Die theoretischere Antwort ist, dass die Stichprobenvarianz die wahre Varianz einer Zufallsvariablen schätzt. Die wahre Varianz einer Zufallsvariablen ist E [ ( X - E X ) 2 ] .X
Hier steht für Erwartung oder "Durchschnittswert". Die Definition der Varianz ist also der durchschnittliche quadratische Abstand zwischen der Variablen und ihrem Durchschnittswert. Wenn Sie sich diese Definition ansehen, gibt es hier keine "Zeitreihenfolge", da es keine Daten gibt. Es ist nur ein Attribut der Zufallsvariablen.E
Wenn Sie ID-Daten von dieser Distribution sammeln, haben Sie Realisierungen . Der beste Weg, die Erwartung abzuschätzen, besteht darin, die Durchschnittswerte der Stichprobe zu ermitteln. Der Schlüssel hier ist, dass wir ID-Daten haben und daher keine Reihenfolge zu den Daten besteht. Die Stichprobe x 1 , x 2 , ... , x n ist dieselbe wie die Stichprobe x 2 , x 5 , x 1 , x n . .x1,x2,…,xn x1,x2,…,xn x2, x5, x1, xn. .
BEARBEITEN
Die Stichprobenvarianz misst eine bestimmte Art von Streuung für die Stichprobe, die den durchschnittlichen Abstand vom Mittelwert misst. Es gibt andere Arten der Streuung wie Datenbereich und Inter-Quantile-Bereich.
Auch wenn Sie Ihre Werte in aufsteigender Reihenfolge sortieren, ändert dies nichts an den Eigenschaften der Stichprobe. Die Probe (Daten), die Sie erhalten, sind Realisierungen aus einer Variablen. Die Berechnung der Stichprobenvarianz ist vergleichbar mit dem Verständnis der Streuung in der Variablen. Wenn Sie zum Beispiel 20 Personen befragen und deren Größe berechnen, dann sind dies 20 "Realisierungen" aus der Zufallsvariablen Größe der Personen. Die Stichprobenvarianz soll nun allgemein die Variabilität der Körpergröße von Individuen messen. Wenn Sie die Daten 100 , 110 , 123 , 124 , ... bestellen ,X=
Dies ändert nichts an den Informationen im Beispiel.
Schauen wir uns noch ein Beispiel an. Nehmen wir an, Sie haben 100 Beobachtungen aus einer Zufallsvariablen, die auf diese Weise nach 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 geordnet wurden Dann beträgt die durchschnittliche Folgeentfernung 1 Einheiten. Nach Ihrer Methode beträgt die Varianz 1.
Die Interpretation von "Varianz" oder "Streuung" besteht darin, zu verstehen, welcher Wertebereich für die Daten wahrscheinlich ist. In diesem Fall erhalten Sie eine Reichweite von 0,99 Einheiten, was natürlich die Variation nicht gut darstellt.
Wenn Sie anstelle des Durchschnitts nur die nachfolgenden Differenzen summieren, beträgt Ihre Varianz 99. Dies stellt natürlich nicht die Variabilität in der Stichprobe dar, da 99 Ihnen den Bereich der Daten und kein Gefühl der Variabilität gibt.
quelle
Es ist so definiert!
Hier ist die Algebra. Die Werte seien . Bezeichnen Sie mit F die empirische Verteilungsfunktion dieser Werte (dh jedes x i trägt eine Wahrscheinlichkeitsmasse von 1 / n zum Wert x i bei ) und lassen Sie X und Y unabhängige Zufallsvariablen mit der Verteilung F sein . Aufgrund der grundlegenden Eigenschaften der Varianz (nämlich einer quadratischen Form) sowie der Definition von F und der Tatsachex=(x1,x2,…,xn) F xi 1/n xi X Y F F und Y haben den gleichen Mittelwert,X Y
Diese Formel hängt nicht von der Art und Weise ab, wie geordnet ist: Sie verwendet alle möglichen Komponentenpaare und vergleicht sie mit der Hälfte ihrer quadratischen Differenzen. Sie kann jedoch auf einen Durchschnitt über alle möglichen Ordnungen bezogen werden (die Gruppe S ( n ) aller n ! -Permutationen der Indizes 1 , 2 , … ,x S(n) n! ). Nämlich,1,2,…,n
Die innere Summierung erfolgt die umgeordneten Werte und summiert die (halbe) quadrierten Differenzen zwischen allen n - 1 aufeinanderfolgende Paaren. Die Division durch n mittelt im wesentlichen diese aufeinanderfolgenden quadratischen Differenzen . Es berechnet die sogenannte Lag-1-Semivarianz . Die äußere Summe macht dies für alle möglichen Ordnungen .xσ(1),xσ(2),…,xσ(n) n−1 n
Diese beiden äquivalenten algebraischen Ansichten der Standardvarianzformel geben einen neuen Einblick in die Bedeutung der Varianz. Die Semivarianz ist ein inverses Maß für die serielle Kovarianz einer Sequenz: Die Kovarianz ist hoch (und die Zahlen sind positiv korreliert), wenn die Semivarianz niedrig ist, und umgekehrt. Die Varianz eines ungeordneten Datensatzes ist also eine Art Durchschnitt aller möglichen Semivarianzen, die bei willkürlicher Neuordnung erhältlich sind.
quelle
Just a complement to the other answers, variance can be computed as the squared difference between terms:
I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.
UPDATE
Using your example:X=1,2,3,4,5 . We know the variance is Var(X)=2 .
With your proposed methodVar(X)=1 , so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:
quelle
Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.
Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.
The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.
quelle
@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.
In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.
Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).
Your method would seem odd applied to such a case.
quelle
Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.
The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example ifX is a random variable with distribution function FX then its mean μx , which is also a parameter, is:
and the variance ofX , σ2X , is:
The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.
What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.
So we want to estimate the variance of a random variableX from a set of independent realizations of it, lets say x={x1,…,xn} . The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:
and the usual statistic is:
wherex¯ is the sample mean.
When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:
MSE = estimator bias + estimator variance.
Using this criterion the usual statistic,S2 , has some advantages over the one you suggests.
First it is a unbiased estimator of the variance but your statistic is not unbiased.
One other important thing is that if we are working with the normal distribution thenS2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.
When normality is assumed, as is the case in many applications,S2 is the natural choice when you want to estimate the variance.
quelle
The time-stepped difference is indeed used in one form, the Allan Variance. http://www.allanstime.com/AllanVariance/
quelle
Lots of good answers here, but I'll add a few.
Nonetheless, as @Pere said, your metric might prove itself very useful in the future.
quelle