Kann die Standardabweichung nicht negativer Daten den Mittelwert überschreiten?

15

Ich habe einige triangulierte 3D-Netze. Die Statistiken für die Dreiecksbereiche sind:

  • Min 0,000
  • Max 2341,141
  • Mittelwert 56,317
  • Std dev 98.720

Bedeutet es also etwas besonders Nützliches an der Standardabweichung oder deutet es darauf hin, dass es Fehler bei der Berechnung gibt, wenn die Zahlen wie oben dargestellt funktionieren? Die Gebiete sind sicherlich weit davon entfernt, normal verteilt zu sein.

Und wie jemand in einer ihrer Antworten weiter unten erwähnte, hat mich das wirklich überrascht, dass es nur eine SD vom Mittelwert gekostet hat, bis die Zahlen negativ und damit nicht mehr legal waren.

Vielen Dank

Andy Dent
quelle
4
Im Datensatz die Standardabweichung der Stichprobe während der Mittelwert beträgt - ziemlich nahe an dem, was Sie beobachten. 100 52{2,2,2,202}10052
whuber
5
Für ein bekanntes (für einige) Beispiel könnte das durchschnittliche Ergebnis, wenn jemand eine Stunde lang Blackjack spielt, negativ sein ( 25 $), jedoch mit einer Standardabweichung von beispielsweise 100 $ (Zahlen zur Veranschaulichung). Dieser große Variationskoeffizient macht es für jemanden einfacher zu glauben, dass er besser ist als er wirklich ist.
Michael McGowan
Die Folgefrage ist ebenfalls sehr informativ: Sie begrenzt die SD einer Reihe von (nichtnegativen Daten), wenn der Mittelwert angegeben wird.
whuber

Antworten:

9

Nichts besagt, dass die Standardabweichung kleiner oder größer als der Mittelwert sein muss. Bei einem gegebenen Datensatz können Sie den Mittelwert beibehalten, die Standardabweichung jedoch in einem beliebigen Ausmaß ändern, indem Sie eine positive Zahl entsprechend addieren / subtrahieren .

Verwenden Sie den Beispieldatensatz von @ whuber aus seinem Kommentar zur Frage: {2, 2, 2, 202}. Wie von @whuber angegeben: Der Mittelwert ist 52 und die Standardabweichung ist 100.

Beeinträchtigen Sie nun jedes Element der Daten wie folgt: {22, 22, 22, 142}. Der Mittelwert beträgt immer noch 52, die Standardabweichung jedoch 60.

varty
quelle
1
Wenn Sie zu jedem Element hinzufügen , ändern Sie den Standortparameter , dh den Mittelwert. Sie ändern die Streuung (dh die Standardabweichung), indem Sie mit einem Skalierungsfaktor multiplizieren (vorausgesetzt, Ihr Mittelwert ist Null).
Dirk Eddelbuettel
@DirkEddelbuettel Du bist richtig. Ich habe die Antwort korrigiert und ein Beispiel zur Verdeutlichung gegeben.
Party
2
Ich folge nicht dem Beispiel. Der neue Datensatz wird eindeutig nicht durch "Addieren oder Subtrahieren einer positiven Zahl" von jedem der ursprünglichen Werte vom Original abgeleitet.
whuber
3
Ich kann es nicht bearbeiten, weil ich nicht weiß, was Sie sagen wollen. Wenn Sie jeder Zahl in einem Datensatz willkürlich separate Werte hinzufügen können, ändern Sie lediglich eine Menge von Werten in eine völlig andere Menge von Werten. Ich verstehe nicht, wie wichtig das für die Frage oder auch nur für Ihren ersten Absatz ist. Ich denke, jeder würde zugeben, dass solche Änderungen den Mittelwert und die SD verändern können, aber das sagt uns nicht, warum die SD eines Satzes nichtnegativer Daten ein positives Vielfaches seines Mittelwerts sein kann. nnn
whuber
2
Sie haben Recht: Die zitierte Behauptung ist meine und erscheint nicht in Ihrer Antwort. (Es ist jedoch zufällig richtig und relevant. :-) Ein Punkt, den ich zu vermitteln versuche, ist, dass die bloße Fähigkeit, die SD zu ändern, während der Mittelwert gleich bleibt, die Frage nicht beantwortet. Wie viel kann die SD geändert werden (während alle Daten nicht negativ bleiben)? Der andere Punkt, den ich ansprechen wollte, ist, dass Ihr Beispiel keinen allgemeinen, vorhersehbaren Prozess darstellt, bei dem solche Änderungen an Daten vorgenommen werden. Dies lässt es willkürlich erscheinen, was nicht viel hilft.
whuber
9

Dies sind natürlich unabhängige Parameter. Sie können einfache Erkundungen in R (oder einem anderen von Ihnen bevorzugten Werkzeug) festlegen.

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Ebenso standardisieren Sie die Daten, die Sie betrachten, indem Sie den Mittelwert subtrahieren und durch die Standardabweichung dividieren.

Bearbeiten Und nach der Idee von @ whuber gibt es hier eine Unendlichkeit von Datensätzen, die Ihren vier Messungen nahe kommen:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 
Dirk Eddelbüttel
quelle
Ich bin mir nicht sicher, ob ich deinen Standpunkt verstehe. Sie sind nicht genau unabhängig, da man den Mittelwert ändern könnte, indem man einen Datenpunkt stört und dadurch auch die Standardabweichung ändert. Habe ich etwas falsch interpretiert?
Party
Wenn man feststellt, dass Dreiecksflächen nicht negativ sein können (wie durch den in der Frage angegebenen Mindestwert bestätigt), würde man auf ein Beispiel hoffen, das ausschließlich aus nicht negativen Zahlen besteht.
whuber
(+1) Zur Bearbeitung: Versuchen Sie, 536 Replikationen von 52,15 zu verwenden :-).
whuber
Nice one re 536 Wiederholungen. Sollte eine binäre Suche durchgeführt haben :)
Dirk Eddelbuettel 18.11.11
@Dirk "Dies sind unabhängige Parameter", betrachten Sie den Fall, wenn ein Bernouilli ist. Varianz und Mittel sind nicht unabhängig: v a r ( X ) = p ( 1 - p ) . Betrachten wir eine Zufallsvariable 100 > X > 0 , maximal mögliche Varianz ( 50 ) 2 jetzt , wenn Sie die mittlere Kraft ein, dass sie gleich (dh niedriger als 50 ) die maximale Abweichung nicht größer sein kann als 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 . Es gibt mehr Beispiele für begrenzte Variablen in der Natur als Gaußsche? 99/100(1)2+(1/100)992
Robin Girard
7

Ich bin mir nicht sicher, warum @Andy von diesem Ergebnis überrascht ist, aber ich weiß, dass er nicht alleine ist. Ich bin mir auch nicht sicher, was die Normalität der Daten damit zu tun hat, dass der SD höher ist als der Mittelwert. Es ist ganz einfach, einen Datensatz zu generieren, der normalerweise dort verteilt wird, wo dies der Fall ist. in der Tat hat die Standardnormale einen Mittelwert von 0, sd von 1. Es wäre schwierig, einen normalverteilten Datensatz aller positiven Werte mit sd> mean zu erhalten; in der Tat sollte es nicht möglich sein (aber es hängt von der Stichprobengröße und dem Test der Normalität ab, den Sie verwenden ... bei einer sehr kleinen Stichprobe passieren seltsame Dinge)

Wenn Sie jedoch die Bedingung der Normalität wie @Andy entfernen, gibt es keinen Grund, warum sd auch bei allen positiven Werten größer oder kleiner als der Mittelwert sein sollte. Ein einzelner Ausreißer wird dies tun. z.B

x <- runif (100, 1, 200) x <- c (x, 2000)

gibt den Mittelwert von 113 und sd von 198 an (natürlich abhängig vom Samen).

Eine größere Frage ist jedoch, warum dies die Menschen überrascht.

Ich unterrichte keine Statistik, aber ich frage mich, wie die Art und Weise, wie Statistik unterrichtet wird, diese Vorstellung verbreitet.

Peter Flom - Wiedereinsetzung von Monica
quelle
Ich habe noch nie Statistik studiert, nur ein paar Einheiten der Ingenieurmathematik und das war vor dreißig Jahren. Andere Leute bei der Arbeit, die meiner Meinung nach die Domäne besser verstanden haben, sprachen davon, schlechte Daten durch "Anzahl der Standard-Entwickler, die vom Durchschnitt abweichen" darzustellen. Es geht also mehr um "wie Standardentwickler allgemein genannt werden" als um "gelehrt" :-)
Andy Dent
@Andy mit einer großen Anzahl von Standardabweichungen vom Mittelwert bedeutet einfach, dass die Variable nicht wesentlich von Null abweicht. Dann kommt es auf den Kontext an (war die Bedeutung der Zufallsvariablen), aber in manchen Fällen möchten Sie diese vielleicht entfernen?
Robin Girard
@Peter siehe mein Kommentar an Dirk, dies könnte die "Überraschung" in irgendeinem Zusammenhang erklären. Eigentlich habe ich einige Zeit Statistik unterrichtet und ich habe nie die Überraschung gesehen, von der Sie sprechen. Auf jeden Fall bevorzuge ich Studierende, die von allem überrascht sind. Ich bin mir ziemlich sicher, dass dies eine gute erkenntnistheoretische Position ist (besser als die absolut nicht überraschende Position in Ohnmacht zu fallen :)).
Robin Girard
@AndyDent "schlechte" Daten bedeuten für mich Daten, die falsch aufgezeichnet wurden. Daten, die weit vom Mittelwert entfernt sind, sind Ausreißer. Angenommen, Sie messen die Körpergröße von Personen. Wenn Sie mich messen und meine Größe mit 7'5 'anstelle von 5'7 aufzeichnen, sind das schlechte Daten. Wenn Sie Yao Ming messen und seine Höhe als 7'5" aufzeichnen, die ein Ausreißer ist aber nicht schlecht Daten Unabhängig von der Tatsache , dass es sehr weit vom Mittelwert (so etwas wie 6 sds) ist.
Peter Flom - wieder einzusetzen Monica
@Peter Florn, In unserem Fall haben wir Ausreißer, die wir loswerden möchten, weil sie Dreiecke darstellen, die algorithmische Probleme bei der Verarbeitung des Netzes verursachen. Es kann sich in Ihrem Sinne sogar um "schlechte Daten" handeln, wenn sie durch fehlerhafte Scan-Geräte oder durch Konvertierung aus anderen Formaten erstellt wurden :-) Andere Formen können Ausreißer aufweisen, die zwar weit vom Durchschnitt entfernt sind, aber kein Problem darstellen. Eines der interessantesten Dinge an diesen Daten ist, dass wir an beiden Enden "schlechte Daten" haben, aber die kleinen sind nicht weit vom Mittelwert entfernt.
Andy Dent
6

Nur das Hinzufügen eines generischen Punktes , dass aus einer Calculus Perspektive und x 2 f ( x ) d x werden von verwandter Jensen Ungleichung , vorausgesetzt , die beiden Integrale existieren, x 2 f ( x ) d x { x f ( x ) d x } 2

xf(x)dx
x2f(x)dx
Angesichts dieser allgemeinen Ungleichung hindert nichts die Varianz daran, willkürlich groß zu werden. Beobachten Sie diet-VerteilungdesSchülersmit ν Freiheitsgraden, X T ( ν , μ , σ ) und nehmen Sie Y = | X | dessen zweiter Moment der gleiche ist wie der zweite Moment von X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y.=|X|X wennν>2 ist. Es wird also unendlich, wennνauf2abfällt, während der Mittelwert vonYendlich bleibt, solangeν>1 ist.
E[|X|2]=νν-2σ2+μ2,
ν>2ν2Y.ν>1
Xi'an
quelle
1
Bitte beachten Sie die explizite Beschränkung auf nicht negative Werte in der Frage.
whuber
Das Student-Beispiel lässt sich leicht in das Absolut-Wert-eines-Student's-t-Verteilungsbeispiel übersetzen ...
Xi'an
1
Aber das ändert natürlich den Mittelwert :-). Die Frage betrifft die Beziehung zwischen dem SD und dem Mittelwert (siehe Titel). Ich sage nicht, dass Sie sich irren; Ich schlage nur (implizit) vor, dass Ihre Antwort mit geringem Aufwand direkter auf die Frage eingehen könnte.
whuber
@whuber: ok, ich bearbeiten die über den absoluten Wert zu betrachten (I abgeleitet auch den Mittelwert des Absolutwertes aber <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> es ist eher plump </ a> ...)
Xi'an
3

Vielleicht ist das OP überrascht, dass der Mittelwert - 1 SD eine negative Zahl ist (insbesondere wenn das Minimum 0 ist).

Hier sind zwei Beispiele zur Verdeutlichung.

Angenommen, Sie haben eine Klasse von 20 Erstklässlern, von denen 18 6 Jahre alt, 1 5 und 1 7 Jahre alt sind. Fügen Sie nun den 49-jährigen Lehrer hinzu. Das Durchschnittsalter beträgt 8,0 Jahre, die Standardabweichung 9,402 Jahre.

Sie denken vielleicht: Eine Standardabweichung für diese Klasse liegt zwischen -1.402 und 17.402 Jahren. Sie könnten überrascht sein, dass die SD ein negatives Alter enthält, was unvernünftig erscheint.

Sie müssen sich keine Gedanken über das negative Alter machen (oder die 3D-Darstellungen, die weniger als das Minimum von 0,0 umfassen). Intuitiv haben Sie immer noch ungefähr zwei Drittel der Daten innerhalb von 1 SD des Mittelwerts. (Sie haben tatsächlich 95% der Daten innerhalb von 2 SD des Mittelwerts.)

Wenn die Daten eine nicht normale Verteilung annehmen, sehen Sie überraschende Ergebnisse wie dieses.

Zweites Beispiel. In seinem Buch " Vom Zufall getäuscht" setzt Nassim Taleb das Gedankenexperiment eines Bogenschützen mit verbundenen Augen in Gang, der auf eine Wand von unendlicher Länge schießt. Der Bogenschütze kann zwischen +90 Grad und -90 Grad schießen.

Von Zeit zu Zeit schießt der Bogenschütze den Pfeil parallel zur Wand ab und trifft nie. Überlegen Sie, wie weit der Pfeil das Ziel verfehlt, als die Verteilung der Zahlen. Die Standardabweichung für dieses Szenario wäre inifinte.

rajah9
quelle
Die Regel, dass etwa 2/3 der Daten innerhalb von 1 SD des Mittelwerts liegen, gilt für normale Daten. Die Klassenzimmerdaten sind jedoch eindeutig nicht normal (auch wenn sie aufgrund der geringen Stichprobengröße einen Test auf Normalität bestehen). Talebs Beispiel ist schrecklich. Dies ist ein Beispiel für eine schlechte Operationalisierung einer Variablen. Wenn man davon ausgeht, dass sowohl der Mittelwert als auch der SD unendlich sind. Aber das ist doch Unsinn. "Wie weit der Pfeil fehlt" - für mich ist das eine Distanz. Der Pfeil wird, egal wie er abgefeuert wird, irgendwo landen. Messen Sie die Entfernung von dort zum Ziel. Keine Unendlichkeit mehr.
Peter Flom - Wiedereinsetzung von Monica
1
Ja, das OP war ausreichend überrascht, als ich meinen Mittelwert zum ersten Mal sah - 1 SD wurde negativ, und ich schrieb eine ganze Reihe neuer Unit-Tests mit Excel-Daten, um zu bestätigen, dass zumindest mein Algorithmus dieselben Werte berechnete. Weil Excel nur eine maßgebliche Quelle sein muss, oder?
Andy Dent
@Peter Die 2/3-Regel (Teil einer 68-95-99,7% -Regel) eignet sich für eine Vielzahl von Datensätzen, von denen viele nicht normal und sogar mäßig verzerrt sind. (Die Regel ist ziemlich gut für symmetrische Datasets.) Die Nichtendlichkeit von SD und Mittelwert sind kein "Unsinn". Talebs Beispiel ist eine der wenigen nicht erfundenen Situationen, in denen die Cauchy-Verteilung den Prozess der Datengenerierung eindeutig regelt. Die Unendlichkeit des SD ergibt sich nicht aus der Möglichkeit, die Mauer zu verfehlen, sondern aus der Verteilung der tatsächlichen Treffer.
whuber
1
@whuber Ich war mir Ihres ersten Punktes bewusst, der ein guter ist. Ich bin nicht einverstanden mit Ihrem zweiten Punkt in Bezug auf Taleb. Es scheint mir ein anderes Beispiel zu sein.
Peter Flom - Reinstate Monica
3

X

fX(x)=βαΓ(α)xα-1e-βxich(0,)(x),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVeinr[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139
Zen
quelle
1

x¯σx[0,c]nn-1 und wenn ja

σxx¯(c-x¯)c2
x¯>c/2σxσx=c/20cσx<x¯x¯<c/2σxMindest{x¯,c-x¯}{X<0}{X>c}
Dilip Sarwate
quelle
4
Ich denke nicht, dass die Frage ist, ob der Datensatz normal ist; ihre Nichtnormalität ist festgelegt. Die Frage ist, ob bei der Berechnung der Standardabweichung möglicherweise ein Fehler aufgetreten ist, da das OP überrascht ist, dass selbst in diesem offensichtlich nicht normalen Datensatz die SD viel größer als der Mittelwert ist. Wenn kein Fehler gemacht wurde, was kann man aus einem so großen Variationskoeffizienten schließen ?
whuber
9
Jede Antwort oder jeder Kommentar, bei dem behauptet wird, dass der Mittelwert und der SD-Wert eines Datensatzes nicht in Beziehung stehen, ist eindeutig falsch, da beide Funktionen mit denselben Daten verknüpft sind und sich beide ändern, wenn einer der Datenwerte geändert wird. Diese Bemerkung enthält einige Echos einer ähnlich klingenden Aussage, die wahr ist (aber für die aktuelle Frage nicht fürchterlich relevant ist); nämlich, dass die Probe Mittelwert und die Probe SD von Daten unabhängig von einer Normalverteilung gezogen sind unabhängig (im probabilistischen Sinne).
whuber
1

Was Sie implizit im Sinn zu haben scheinen, ist ein Vorhersageintervall, das das Auftreten neuer Beobachtungen begrenzen würde. Der Haken ist: Sie müssen eine statistische Verteilung postulieren, die der Tatsache entspricht, dass Ihre Beobachtungen (Dreiecksbereiche) nicht negativ bleiben dürfen. Normal hilft nicht weiter, aber log-normal ist möglicherweise in Ordnung. In der Praxis nehmen Sie das Logbuch der beobachteten Bereiche, berechnen den Mittelwert und die Standardabweichung, bilden ein Vorhersageintervall unter Verwendung der Normalverteilung und bewerten schließlich das Exponential für die unteren und oberen Grenzen - das transformierte Vorhersageintervall ist nicht symmetrisch der Mittelwert und wird garantiert nicht unter Null gehen. Dies ist, was ich denke, das OP tatsächlich im Sinn hatte.

Felipe G. Nievinski
quelle
0

Felipe Nievinski weist hier auf ein echtes Problem hin. Es macht keinen Sinn, normal zu sprechen, wenn die Verteilung eindeutig keine Normalverteilung ist. Alle positiven Werte mit einem relativ kleinen Mittelwert und einer relativ großen Standardabweichung können keine Normalverteilung aufweisen. Die Aufgabe besteht also darin, herauszufinden, welche Art von Verteilung zur Situation passt. Der ursprüngliche Post deutet darauf hin, dass eine Normalverteilung (oder eine solche) klar im Sinn war. Sonst würden keine negativen Zahlen auftauchen. Log normal, Rayleigh, Weibull. Ich weiß es nicht, aber ich frage mich, was in einem Fall wie diesem am besten sein könnte.

fred3
quelle