Ich bin ein Noob in der Statistik, also könntet ihr mir bitte hier raushelfen.
Meine Frage lautet: Was bedeutet eigentlich gepoolte Varianz ?
Wenn ich im Internet nach einer Formel für gepoolte Varianz suche, finde ich viel Literatur mit der folgenden Formel (zum Beispiel hier: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html) ):
Aber was rechnet es eigentlich ? Denn wenn ich diese Formel verwende, um meine gepoolte Varianz zu berechnen, erhalte ich eine falsche Antwort.
Betrachten Sie beispielsweise die folgenden "übergeordneten Beispiele":
Die Varianz dieser Elternstichprobe ist und ihr Mittelwert ist .≤ x p = 5
Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:
- Die erste Unterprobe ist 2,2,2,2,2 mit dem Mittelwert und der Varianz .S 2 1 =0
- Die zweite Unterprobe ist 8,8,8,8,8 mit dem Mittelwert und der Varianz .S 2 2 =0
Nun wird unter Verwendung der obigen Formel zur Berechnung der gepoolten / übergeordneten Varianz dieser beiden Unterabtastungen klarerweise Null erzeugt, da und . Also, was berechnet diese Formel tatsächlich ?
Auf der anderen Seite fand ich nach längerer Ableitung die Formel, die die korrekte Varianz zwischen Pool und Eltern ergibt:
In der obigen Formel ist und .
Eine ähnliche Formel habe ich bei mir gefunden, zum Beispiel hier: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html und auch in Wikipedia. Obwohl ich zugeben muss, dass sie nicht genauso aussehen wie meine.
Was bedeutet gepoolte Varianz eigentlich? Sollte es nicht die Varianz der Elternstichprobe aus den beiden Teilstichproben bedeuten? Oder liege ich hier völlig falsch?
Danke im Voraus.
EDIT 1: Jemand sagt, dass meine beiden obigen Unterproben pathologisch sind, da sie keine Varianz haben. Nun, ich könnte Ihnen ein anderes Beispiel geben. Betrachten Sie dieses übergeordnete Beispiel:
Die Varianz dieser Elternstichprobe beträgt und ihr Mittelwert ist .
Angenommen, ich teile dieses übergeordnete Sample in zwei Unter-Samples auf:
- Die erste Unterprobe ist 1,2,3,4,5 mit dem Mittelwert und der Varianz .
- Die zweite Unterprobe ist 46,47,48,49,50 mit dem Mittelwert und der Varianz .
Wenn Sie nun die "Literaturformel" verwenden, um die gepoolte Varianz zu berechnen, erhalten Sie 2,5, was völlig falsch ist, da die übergeordnete / gepoolte Varianz 564,7 betragen sollte. Wenn Sie stattdessen "meine Formel" verwenden, erhalten Sie die richtige Antwort.
Bitte haben Sie Verständnis, ich verwende hier extreme Beispiele, um den Leuten zu zeigen, dass die Formel tatsächlich falsch ist. Wenn ich "normale Daten" verwende, die nicht viele Variationen aufweisen (Extremfälle), sind die Ergebnisse dieser beiden Formeln sehr ähnlich, und die Differenz kann aufgrund von Rundungsfehlern verworfen werden, nicht weil es sich um die Formel selbst handelt falsch.
Antworten:
Einfach ausgedrückt ist die gepoolte Varianz eine (unvoreingenommene) Schätzung der Varianz innerhalb jeder Stichprobe unter der Annahme / Einschränkung, dass diese Varianzen gleich sind.
Dies wird im Wikipedia-Eintrag für gepoolte Varianz ausführlich erläutert, motiviert und analysiert .
Es wird nicht die Varianz eines neuen "Meta-Samples" geschätzt, das durch Verketten der beiden einzelnen Samples gebildet wird, wie Sie angenommen haben. Wie Sie bereits festgestellt haben, erfordert das Schätzen eine völlig andere Formel.
quelle
Die gepoolte Varianz wird verwendet, um Varianzen aus verschiedenen Stichproben zu kombinieren, indem ihr gewichteter Durchschnitt ermittelt wird, um die "Gesamt" -Varianz zu erhalten. Das Problem bei Ihrem Beispiel ist, dass es sich um einen pathologischen Fall handelt, da jede der Unterproben eine Varianz von Null aufweist. Ein solcher pathologischer Fall hat sehr wenig mit den Daten zu tun, auf die wir normalerweise stoßen, da es immer eine gewisse Variabilität gibt, und wenn es keine Variabilität gibt, kümmern wir uns nicht um solche Variablen, da sie keine Informationen enthalten. Sie müssen beachten, dass dies eine sehr einfache Methode ist und dass es kompliziertere Methoden zum Schätzen der Varianz in hierarchischen Datenstrukturen gibt, die für solche Probleme nicht anfällig sind.
Sie können davon ausgehen, dass jede Unterprobe ihren eigenen Mittelwert hat
oder seine eigene Varianz
oder jeder von ihnen hat seine eigenen, unterschiedlichen Parameter
Abhängig von Ihren Annahmen kann eine bestimmte Methode zur Analyse der Daten geeignet sein oder auch nicht.
Im ersten Fall wären Sie nicht daran interessiert, die gruppeninternen Varianzen zu schätzen, da Sie davon ausgehen würden, dass sie alle gleich sind. Wenn Sie jedoch die globale Varianz aus den Gruppenvarianzen aggregieren, erhalten Sie dasselbe Ergebnis wie bei Verwendung der gepoolten Varianz, da die Definition der Varianz lautet
Im zweiten Fall unterscheiden sich die Mittelwerte, aber Sie haben eine gemeinsame Varianz. Dieses Beispiel ist Ihrem Beispiel in der Bearbeitung am nächsten. In diesem Szenario würde die gepoolte Varianz die globale Varianz korrekt schätzen, während Sie bei einer geschätzten Varianz für den gesamten Datensatz falsche Ergebnisse erhalten würden, da Sie nicht berücksichtigt haben, dass die Gruppen unterschiedliche Mittelwerte haben.
Im dritten Fall ist es nicht sinnvoll, die "globale" Varianz zu schätzen, da Sie davon ausgehen, dass jede der Gruppen ihre eigene Varianz hat. Möglicherweise möchten Sie weiterhin die Schätzung für die gesamte Population erhalten. In diesem Fall können jedoch sowohl (a) die Berechnung der einzelnen Abweichungen pro Gruppe als auch (b) die Berechnung der globalen Abweichung aus dem gesamten Datensatz irreführende Ergebnisse liefern . Wenn Sie mit dieser Art von Daten arbeiten, sollten Sie sich überlegen, ein komplizierteres Modell zu verwenden, das die hierarchische Natur der Daten berücksichtigt.
Der vierte Fall ist der extremste und dem vorherigen sehr ähnlich. Wenn Sie in diesem Szenario den globalen Mittelwert und die Varianz schätzen möchten, benötigen Sie ein anderes Modell und andere Annahmen. In diesem Fall würden Sie davon ausgehen, dass Ihre Daten hierarchisch strukturiert sind, und neben den gruppeninternen Mitteln und Abweichungen gibt es eine übergeordnete allgemeine Abweichung, beispielsweise unter der Annahme des folgenden Modells
quelle
Das Problem ist, wenn Sie nur die Stichproben verketten und ihre Varianz abschätzen, gehen Sie davon aus, dass sie aus derselben Verteilung stammen und daher den gleichen Mittelwert haben. Generell interessieren uns aber mehrere Stichproben mit unterschiedlichem Mittelwert. Macht das Sinn?
quelle
Der Anwendungsfall der gepoolten Varianz liegt vor, wenn Sie zwei Stichproben von Verteilungen haben, die:
Ein Beispiel hierfür ist eine Situation, in der Sie die Länge von Alice 'Nase messenn times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.
In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.
quelle
Through pooled variance we are not trying to estimate the variance of a bigger sample, using smaller samples. Hence, the two examples you gave don't exactly refer to the question.
Pooled variance is required to get a better estimate of population variance, from two samples that have been randomly taken from that population and come up with different variance estimates.
Example, you are trying to gauge variance in the smoking habits of males in London. You sample two times, 300 males from London. You end up getting two variances (probably a bit different!). Now since, you did a fair random sampling (best to your capability! as true random sampling is almost impossible), you have all the rights to say that both the variances are true point estimates of population variance (London males in this case).
But how is that possible? i.e. two different point estimates!! Thus, we go ahead and find a common point estimate which is pooled variance. It is nothing but weighted average of two point estimates, where the weights are the degree of freedom associated with each sample.
Hope this clarifies.
quelle