Angenommen, ich habe das Minimum, den Mittelwert und das Maximum eines Datensatzes, z. B. 10, 20 und 25. Gibt es eine Möglichkeit:
Erstellen Sie eine Verteilung aus diesen Daten und
wissen, wie viel Prozent der Bevölkerung wahrscheinlich über oder unter dem Mittelwert liegen
Bearbeiten:
Angenommen, wir haben gemäß Glen's Vorschlag eine Stichprobengröße von 200.
distributions
standard-deviation
mean
maximum
minimum
user132053
quelle
quelle
Antworten:
Es gibt unendlich viele mögliche Verteilungen, die mit diesen Probenmengen übereinstimmen würden.
In Ermangelung einiger wahrscheinlich ungerechtfertigter Annahmen, im Allgemeinen nicht - zumindest nicht mit viel Sinn, dass es sinnvoll sein wird. Die Ergebnisse hängen weitgehend von Ihren Annahmen ab (die Werte selbst enthalten nicht viele Informationen, obwohl einige bestimmte Vereinbarungen nützliche Informationen liefern - siehe unten).
Es ist nicht schwer, Situationen zu finden, in denen die Antworten auf die Proportionsfrage sehr unterschiedlich sein können. Wenn es sehr unterschiedliche mögliche Antworten gibt, die mit den Informationen übereinstimmen, wie würden Sie wissen, in welcher Situation Sie sich befinden?
Weitere Details mögen hilfreiche Hinweise geben, aber so wie es aussieht (ohne Stichprobengröße, obwohl es vermutlich mindestens 2 oder 3 ist, wenn der Mittelwert nicht auf halbem Weg zwischen den Endpunkten liegt *), werden Sie bei dieser Frage nicht unbedingt viel Wert erhalten . Sie können versuchen, Grenzen zu überschreiten, aber in vielen Fällen werden sie die Dinge nicht stark einschränken.
* Wenn der Mittelwert nahe an einem Endpunkt liegt, können Sie eine Untergrenze für die Stichprobengröße erhalten. Wenn Sie beispielsweise anstelle von 10,20,25 für Ihr Minimum / Mittelwert / Maximum 10 24 25 hatten, müsste mindestens 15 sein, und dies würde auch darauf hindeuten, dass der größte Teil der Bevölkerung über 24 Jahre alt ist. das ist etwas. Aber wenn es 10,18,25 wäre, wäre es viel schwieriger, eine nützliche Vorstellung von der Stichprobengröße zu bekommen, geschweige denn den Anteil unter dem Mittelwert.n
quelle
Wie bereits von Glen_b erwähnt , gibt es unendlich viele Möglichkeiten. Schauen Sie sich die folgenden Diagramme an, sie zeigen acht verschiedene Verteilungen mit demselben Min, Max und Mittelwert.
Beachten Sie, dass sie sich stark voneinander unterscheiden. Das erste ist einheitlich, das vierte ist eine bimodale Mischung dreieckiger Verteilungen, das siebte hat die größte Wahrscheinlichkeit, dass sich die Masse um das Zentrum konzentriert, aber immer noch sind min und max mit sehr geringer Wahrscheinlichkeit möglich, acht ist diskret und hat nur zwei Werte bei min und bei max usw. .
Da sie alle Ihren Kriterien entsprechen, können Sie sie für die Simulation verwenden. Ihre subjektive Wahl hätte jedoch sehr tiefgreifende Auswirkungen auf das Ergebnis der Simulation. Was ich sagen möchte ist, dass wenn min, max und mean wirklich das einzige sind, was Sie über die Verteilung wissen, Sie nicht genügend Informationen haben, um die Simulation durchzuführen, wenn Sie möchten, dass sie wirklich die reale (unbekannte) Verteilung nachahmt.
So müssen Sie sich fragen , was tun Sie über die Verteilung wissen? Ist es diskret oder kontinuierlich? Symmetrisch oder schief? Unimodal oder bimodal? Es gibt viele Dinge zu beachten. Wenn es kontinuierlich, ungleichmäßig und unimodal ist und Sie nur die Min-, Max- und Mittelwerte kennen, ist eine dreieckige Verteilung eine mögliche Wahl - es ist höchst unwahrscheinlich, dass irgendetwas im wirklichen Leben eine solche Verteilung hat, aber zumindest verwenden Sie etwas Einfaches und nicht zu viele Annahmen über seine Form auferlegen.
quelle
Eine bereichsbasierte Regel zur Berechnung der Standardabweichung wird in der statistischen Literatur häufig zitiert (hier eine Referenz ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Grundsätzlich ist es (max-min) / 4. Es ist bekannt, dass es sich um eine sehr grobe Schätzung handelt.
Angesichts dieser Informationen und der Bereitschaft, normalverteilte Daten anzunehmen , können normale Abweichungen aus zwei Zahlen generiert werden, dem Mittelwert und der bereichsbasierten Standardabweichung. Das heißt, aus diesen beiden Informationen könnte eine Verteilung mit einem oder zwei Parametern erzeugt werden, solange diese Verteilung im ersten oder zweiten Moment verwurzelt war.
Ein grober Variationskoeffizient könnte auch erzeugt werden, indem das Verhältnis von SD / Mittelwert genommen wird. Dies würde einen Proxy für die einheitlose Variabilität in den Daten liefern.
Der Fehler bezieht sich besser auf die Stichprobenverteilung der Population und erfordert eine Angabe der Stichprobengröße n zur Schätzung. Ihre Beschreibung enthält dieses Detail nicht.
quelle