Ich habe einige triangulierte 3D-Netze. Die Statistiken für die Dreiecksbereiche sind:
- Min 0,000
- Max 2341,141
- Mittelwert 56,317
- Std dev 98.720
Bedeutet es also etwas besonders Nützliches an der Standardabweichung oder deutet es darauf hin, dass es Fehler bei der Berechnung gibt, wenn die Zahlen wie oben dargestellt funktionieren? Die Gebiete sind sicherlich weit davon entfernt, normal verteilt zu sein.
Und wie jemand in einer ihrer Antworten weiter unten erwähnte, hat mich das wirklich überrascht, dass es nur eine SD vom Mittelwert gekostet hat, bis die Zahlen negativ und damit nicht mehr legal waren.
Vielen Dank
distributions
mean
standard-deviation
Andy Dent
quelle
quelle
Antworten:
Nichts besagt, dass die Standardabweichung kleiner oder größer als der Mittelwert sein muss. Bei einem gegebenen Datensatz können Sie den Mittelwert beibehalten, die Standardabweichung jedoch in einem beliebigen Ausmaß ändern, indem Sie eine positive Zahl entsprechend addieren / subtrahieren .
Verwenden Sie den Beispieldatensatz von @ whuber aus seinem Kommentar zur Frage: {2, 2, 2, 202}. Wie von @whuber angegeben: Der Mittelwert ist 52 und die Standardabweichung ist 100.
Beeinträchtigen Sie nun jedes Element der Daten wie folgt: {22, 22, 22, 142}. Der Mittelwert beträgt immer noch 52, die Standardabweichung jedoch 60.
quelle
Dies sind natürlich unabhängige Parameter. Sie können einfache Erkundungen in R (oder einem anderen von Ihnen bevorzugten Werkzeug) festlegen.
Ebenso standardisieren Sie die Daten, die Sie betrachten, indem Sie den Mittelwert subtrahieren und durch die Standardabweichung dividieren.
Bearbeiten Und nach der Idee von @ whuber gibt es hier eine Unendlichkeit von Datensätzen, die Ihren vier Messungen nahe kommen:
quelle
Ich bin mir nicht sicher, warum @Andy von diesem Ergebnis überrascht ist, aber ich weiß, dass er nicht alleine ist. Ich bin mir auch nicht sicher, was die Normalität der Daten damit zu tun hat, dass der SD höher ist als der Mittelwert. Es ist ganz einfach, einen Datensatz zu generieren, der normalerweise dort verteilt wird, wo dies der Fall ist. in der Tat hat die Standardnormale einen Mittelwert von 0, sd von 1. Es wäre schwierig, einen normalverteilten Datensatz aller positiven Werte mit sd> mean zu erhalten; in der Tat sollte es nicht möglich sein (aber es hängt von der Stichprobengröße und dem Test der Normalität ab, den Sie verwenden ... bei einer sehr kleinen Stichprobe passieren seltsame Dinge)
Wenn Sie jedoch die Bedingung der Normalität wie @Andy entfernen, gibt es keinen Grund, warum sd auch bei allen positiven Werten größer oder kleiner als der Mittelwert sein sollte. Ein einzelner Ausreißer wird dies tun. z.B
x <- runif (100, 1, 200) x <- c (x, 2000)
gibt den Mittelwert von 113 und sd von 198 an (natürlich abhängig vom Samen).
Eine größere Frage ist jedoch, warum dies die Menschen überrascht.
Ich unterrichte keine Statistik, aber ich frage mich, wie die Art und Weise, wie Statistik unterrichtet wird, diese Vorstellung verbreitet.
quelle
Nur das Hinzufügen eines generischen Punktes , dass aus einer Calculus Perspektive und ∫ x 2 f ( x ) d x werden von verwandter Jensen Ungleichung , vorausgesetzt , die beiden Integrale existieren, ∫ x 2 f ( x ) d x ≥ { ∫ x f ( x ) d x } 2
quelle
Vielleicht ist das OP überrascht, dass der Mittelwert - 1 SD eine negative Zahl ist (insbesondere wenn das Minimum 0 ist).
Hier sind zwei Beispiele zur Verdeutlichung.
Angenommen, Sie haben eine Klasse von 20 Erstklässlern, von denen 18 6 Jahre alt, 1 5 und 1 7 Jahre alt sind. Fügen Sie nun den 49-jährigen Lehrer hinzu. Das Durchschnittsalter beträgt 8,0 Jahre, die Standardabweichung 9,402 Jahre.
Sie denken vielleicht: Eine Standardabweichung für diese Klasse liegt zwischen -1.402 und 17.402 Jahren. Sie könnten überrascht sein, dass die SD ein negatives Alter enthält, was unvernünftig erscheint.
Sie müssen sich keine Gedanken über das negative Alter machen (oder die 3D-Darstellungen, die weniger als das Minimum von 0,0 umfassen). Intuitiv haben Sie immer noch ungefähr zwei Drittel der Daten innerhalb von 1 SD des Mittelwerts. (Sie haben tatsächlich 95% der Daten innerhalb von 2 SD des Mittelwerts.)
Wenn die Daten eine nicht normale Verteilung annehmen, sehen Sie überraschende Ergebnisse wie dieses.
Zweites Beispiel. In seinem Buch " Vom Zufall getäuscht" setzt Nassim Taleb das Gedankenexperiment eines Bogenschützen mit verbundenen Augen in Gang, der auf eine Wand von unendlicher Länge schießt. Der Bogenschütze kann zwischen +90 Grad und -90 Grad schießen.
Von Zeit zu Zeit schießt der Bogenschütze den Pfeil parallel zur Wand ab und trifft nie. Überlegen Sie, wie weit der Pfeil das Ziel verfehlt, als die Verteilung der Zahlen. Die Standardabweichung für dieses Szenario wäre inifinte.
quelle
R
quelle
quelle
Was Sie implizit im Sinn zu haben scheinen, ist ein Vorhersageintervall, das das Auftreten neuer Beobachtungen begrenzen würde. Der Haken ist: Sie müssen eine statistische Verteilung postulieren, die der Tatsache entspricht, dass Ihre Beobachtungen (Dreiecksbereiche) nicht negativ bleiben dürfen. Normal hilft nicht weiter, aber log-normal ist möglicherweise in Ordnung. In der Praxis nehmen Sie das Logbuch der beobachteten Bereiche, berechnen den Mittelwert und die Standardabweichung, bilden ein Vorhersageintervall unter Verwendung der Normalverteilung und bewerten schließlich das Exponential für die unteren und oberen Grenzen - das transformierte Vorhersageintervall ist nicht symmetrisch der Mittelwert und wird garantiert nicht unter Null gehen. Dies ist, was ich denke, das OP tatsächlich im Sinn hatte.
quelle
Felipe Nievinski weist hier auf ein echtes Problem hin. Es macht keinen Sinn, normal zu sprechen, wenn die Verteilung eindeutig keine Normalverteilung ist. Alle positiven Werte mit einem relativ kleinen Mittelwert und einer relativ großen Standardabweichung können keine Normalverteilung aufweisen. Die Aufgabe besteht also darin, herauszufinden, welche Art von Verteilung zur Situation passt. Der ursprüngliche Post deutet darauf hin, dass eine Normalverteilung (oder eine solche) klar im Sinn war. Sonst würden keine negativen Zahlen auftauchen. Log normal, Rayleigh, Weibull. Ich weiß es nicht, aber ich frage mich, was in einem Fall wie diesem am besten sein könnte.
quelle