Kann der Mittelwert plus eine Standardabweichung den Maximalwert überschreiten?

19

Ich habe einen Mittelwert von 74,10 und eine Standardabweichung von 33,44 für eine Stichprobe mit einem Minimum von 0 und einem Maximum von 94,33.

Mein Professor fragt mich, wie plus eine Standardabweichung das Maximum überschreiten kann.

Ich habe ihr viele Beispiele gezeigt, aber sie versteht es nicht. Ich brauche einen Hinweis, um sie zu zeigen. Es kann sich um ein beliebiges Kapitel oder einen beliebigen Absatz aus einem Statistikbuch handeln, in dem es besonders darum geht.

Boyun Omuru
quelle
Warum möchten Sie eine Standardabweichung vom Mittelwert addieren (oder subtrahieren)? Die SD ist ein Maß für die Verbreitung der Daten. Wollten Sie stattdessen vielleicht den Standardfehler des Mittelwerts?
Setzen Sie Monica - G. Simpson
Ich möchte nicht addieren oder subtrahieren, derjenige, der das will, ist mein Professor. So versteht sie die
Standardabweichung
5
Ein interessantes Beispiel ist die Stichprobe (0.01.0.02.0.98.0.99). Sowohl der Mittelwert plus die Standardabweichung als auch der Mittelwert minus die Standardabweichung liegen außerhalb von [0,1].
Glen_b
Vielleicht denkt sie nur an eine Normalverteilung?
user765195

Antworten:

28

Mit Sicherheit kann der Mittelwert plus eins sd die größte Beobachtung übertreffen.

Betrachten Sie die Probe 1, 5, 5, 5 -

es hat Mittelwert 4 und Standardabweichung 2, also ist der Mittelwert + sd 6, einer mehr als das Stichprobenmaximum. Hier ist die Berechnung in R:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

Es ist ein weit verbreitetes Ereignis. Dies tritt in der Regel auf, wenn ein Haufen hoher Werte und ein Nachlassen nach links zu verzeichnen sind (dh wenn eine starke linke Schräglage und ein Peak in der Nähe des Maximums vorliegen).

-

Die gleiche Möglichkeit gilt für Wahrscheinlichkeitsverteilungen, nicht nur für Stichproben - der Populationsmittelwert plus die Population sd können den maximal möglichen Wert leicht überschreiten.

Hier ist ein Beispiel für eine Dichte von mit einem maximal möglichen Wert von 1:beta(10,12)

Bildbeschreibung hier eingeben

In diesem Fall können wir auf der Wikipedia-Seite nach der Beta-Distribution suchen, die besagt, dass der Mittelwert ist:

E[X]=αα+β

und die Varianz ist:

var[X]=αβ(α+β)2(α+β+1)

(Obwohl wir uns nicht auf Wikipedia verlassen müssen, da sie ziemlich einfach abzuleiten sind.)

Für und wir also einen Mittelwert von und sd , also einen Mittelwert von + sd , mehr als das mögliche Maximum von 1.β = 1α=100,95230,06281,0152β=120.95230.06281.0152

Das heißt, es ist leicht möglich, einen Wert von mean + sd zu haben, der nicht als Datenwert beobachtet werden kann .

-

In jeder Situation, in der der Modus maximal war, muss die Pearson-Modus-Schiefe nur damit der Mittelwert + sd den Maximalwert überschreitet. Es kann jeden Wert annehmen, positiv oder negativ, so dass wir sehen können, dass es leicht möglich ist.<1

-

Ein eng verwandtes Problem treten häufig bei Konfidenzintervallen für ein Binomialverhältnis auf , wobei ein häufig verwendetes Intervall, das normale Approximationsintervall , Grenzwerte außerhalb von erzeugen kann .[0,1]

Betrachten Sie beispielsweise ein normales Annäherungsintervall von 95,4% für den Bevölkerungsanteil der Erfolge in Bernoulli-Studien (Ergebnisse sind 1 oder 0, was Erfolgs- und Misserfolgsereignisse darstellt), wobei 3 von 4 Beobachtungen " " und eine Beobachtung " " sind.010

Dann ist die Obergrenze für das Intervallp^+2×14p^(1p^)=p^+p^(1p^)=0.75+0.433=1.183

Dies ist nur der Stichprobenmittelwert + die übliche Schätzung des SD für das Binomial ... und ergibt einen unmöglichen Wert.

Die übliche Stichprobe sd für 0,1,1,1 ist 0,5 statt 0,433 (sie unterscheiden sich, weil die binomiale ML-Schätzung der Standardabweichung der Division der Varianz durch und nicht durch ). Aber es macht keinen Unterschied - in beiden Fällen übersteigt der Mittelwert + sd den größtmöglichen Anteil.p^(1p^)nn1

Diese Tatsache, dass ein normales Approximationsintervall für das Binom "unmögliche Werte" erzeugen kann, wird häufig in Büchern und Aufsätzen vermerkt. Sie haben es jedoch nicht mit Binomialdaten zu tun. Trotzdem ist das Problem - das heißt, + eine Anzahl von Standardabweichungen ist kein möglicher Wert - analog.

-

In Ihrem Fall führt der ungewöhnliche Wert "0" in Ihrer Stichprobe dazu, dass der sd größer wird als der Mittelwert nach unten, weshalb der Mittelwert + sd hoch ist.

Bildbeschreibung hier eingeben

-

(Die Frage wäre stattdessen - aus welchen Gründen wäre es unmöglich? -, denn ohne zu wissen, warum jemand das Gefühl hat, es gäbe überhaupt ein Problem. Woran wenden wir uns?)

Logischerweise zeigt man, dass es möglich ist, indem man ein Beispiel gibt, wo es passiert. Das hast du schon getan. Was müssen Sie tun, wenn kein Grund angegeben ist, warum dies anders sein sollte?

Wenn ein Beispiel nicht ausreicht, welcher Beweis wäre akzeptabel?

Es hat wirklich keinen Sinn, einfach auf eine Aussage in einem Buch zu verweisen, da jedes Buch eine fehlerhafte Aussage machen kann - ich sehe sie die ganze Zeit. Man muss sich auf die direkte Demonstration verlassen, dass es möglich ist, entweder einen algebraischen Beweis (man könnte ihn aus dem obigen Beta-Beispiel * konstruieren) oder ein numerisches Beispiel (das Sie bereits angegeben haben), das jeder selbst überprüfen kann .

* whuber gibt die genauen Bedingungen für den Beta-Fall in Kommentaren an.

Glen_b - Setzen Sie Monica wieder ein
quelle
5
+1 Das Beta-Beispiel ist eine nette Idee. Vorausgesetzt, und , hat jede Beta- Verteilung einen Mittelwert + sd von mehr als . 0<β<1α>β(1+β)/(1β)(α,β)1
whuber
Lassen Sie mich weiter erklären. Ich suche die prozentuale Genauigkeit eines bestimmten Geräts, das zur Korrektur von Zähnen verwendet wird. Und dieses Gerät führte Genauigkeitsprozentsätze für 7 Zähne wie folgt aus:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96. Mein Professor addiert eine Standardabweichung zum Mittelwert und gibt an, dass das Ergebnis den Maximalwert von% 100 nicht überschreiten kann, da% 100 der maximale Genauigkeitsprozentsatz ist, den das Gerät ausführen kann.
Boyun Omuru
2
Sie hat Recht, dass ein Prozentsatz> 100% in Ihrer Situation keinen Sinn ergibt. Das Problem ist eigentlich die unausgesprochene Prämisse, dass das Hinzufügen einer SD zum Mittelwert in diesem Kontext sinnvoll sein sollte, wenn dies nicht der Fall ist . Ich glaube, hier liegt Ihre Schwierigkeit. Wenn wir verstehen, woher die Prämisse stammt, könnte dies zu einer besseren Lösung führen. Es ist möglich, dass die einfache Tatsache irgendwo in einem Buch steht (es ist jedoch eine triviale Beobachtung, es ist also auch nicht möglich), aber ich bezweifle, dass sie jemals so formuliert wird, dass sie zufrieden sein wird, weil sie falsch ist Voraussetzung ist die Quelle des Problems.
Glen_b
1
In der Tat - mein kleiner Punkt ist, dass diese Neugier ein Ergebnis dessen ist, was Standardabweichungen für stark unsymmetrische Verteilungen darstellen, und nicht das Ergebnis einer Stichprobe. Aber im Allgemeinen denke ich, dass Ihre Antwort ausgezeichnet ist
Henry
2
@tomka Ich habe versucht, vielen Studenten in einer ähnlichen Position zu helfen. Schließlich lernte ich die (möglicherweise nicht überraschende) Faustregel, dass es praktisch unmöglich ist, einem Vorgesetzten irgendetwas durch das Medium seines Schülers beizubringen.
Glen_b -Reinstate Monica
4

Gemäß der Ungleichung von Chebyshev können weniger als k –2 Punkte mehr als k Standardabweichungen entfernt sein. Für k = 1 bedeutet dies, dass weniger als 100% Ihrer Proben mehr als eine Standardabweichung entfernt sein können.

Es ist interessanter, die Untergrenze zu betrachten. Ihr Professor sollte sich mehr wundern, dass es Punkte gibt, die etwa 2,5 Standardabweichungen unter dem Mittelwert liegen. Aber wir wissen jetzt, dass nur etwa 1/6 Ihrer Samples 0 sein kann.

MSalters
quelle
3

Das Problem kann darin bestehen, dass Ihre Verteilung keine Normalverteilung ist, von der eine Standardabweichung ausgeht. Ihre Verteilung ist wahrscheinlich verzerrt , daher müssen Sie Ihre Menge zuerst in eine Normalverteilung umwandeln, indem Sie eine geeignete Transformationsfunktion auswählen. Dieser Vorgang wird als Umwandlung in Normalität bezeichnet . Ein solcher Funktionskandidat in Ihrem Fall könnte eine gespiegelte Protokolltransformation sein. Sobald Ihr Gerät einen Normalitätstest besteht , können Sie die Standardabweichung verwenden. Verwenden Sie dann Ihr 1 oder 2σσWerte, die Sie mithilfe der Umkehrung Ihrer Transformationsfunktion wieder in Ihren ursprünglichen Datenraum umwandeln müssen. Ich denke, das hat Ihr Professor angedeutet.

Snives
quelle
5
Das ist ein schöner Beitrag. Ich bin mir allerdings nicht sicher, ob die SD wirklich eine Normalverteilung "annimmt".
gung - Wiedereinsetzung von Monica
3
"Distribution Fitting" und das Finden einer Transformation zur Normalität sind unterschiedliche Verfahren mit unterschiedlichen Zielen.
whuber
2

Im Allgemeinen haben wir für die Bernoulli-Zufallsvariable , die den Wert mit der Wahrscheinlichkeit und den Wert mit der Wahrscheinlichkeit annimmt ,X10<p<101p

E(X)=p,SE(X)=p(1p)

Und wir wollen

E(X)+SE(X)>1p+p(1-p)>1

p(1-p)>(1-p)

Quadrieren Sie beide Seiten, um zu erhalten

p(1-p)>(1-p)2p>1-pp>12

In Worten, für jede Bernoullische Zufallsvariable mit der theoretischen Ausdruck hält.E ( X ) + S E ( X ) > max Xp>1/2E(X)+SE(X)>maxX

So wird zum Beispiel für jede iid - Probe, die aus einem Bernoulli mit zum Beispiel entnommen wurde , in den meisten Fällen der Probenmittelwert plus die Probenstandardabweichung den Wert überschreiten , der der beobachtete Maximalwert ist (abgesehen vom Fall eines Alle-Nullen-Beispiel!).1p=0,71

Für andere Verteilungen haben wir in der Ungleichung immer die entgegengesetzte Richtung, zB für ein Uniform gilt immer . Daher gibt es keine allgemeine Regel.E ( U ) + S E ( U ) < max U = bU(ein,b)E(U)+SE(U)<maxU=b

Alecos Papadopoulos
quelle