Ich versuche, Statistiken zu lernen, weil ich feststelle, dass sie so verbreitet sind, dass ich einige Dinge nicht lernen kann, wenn ich sie nicht richtig verstehe. Ich habe Probleme, diesen Begriff einer Stichprobenverteilung der Stichprobenmittel zu verstehen. Ich kann nicht verstehen, wie es einige Bücher und Websites erklärt haben. Ich glaube, ich habe Verständnis, bin mir aber nicht sicher, ob es korrekt ist. Unten ist mein Versuch, es zu verstehen.
Wenn wir über ein Phänomen sprechen, das eine Normalverteilung annimmt, betrifft dies im Allgemeinen (nicht immer) die Bevölkerung.
Wir möchten Inferenzstatistiken verwenden, um einige Informationen über eine bestimmte Population vorherzusagen, haben aber nicht alle Daten. Wir verwenden Zufallsstichproben und es ist ebenso wahrscheinlich, dass jede Stichprobe der Größe n ausgewählt wird.
Wir nehmen also viele Stichproben, sagen wir 100, und dann ist die Verteilung der Mittelwerte dieser Stichproben gemäß dem zentralen Grenzwertsatz ungefähr normal. Der Mittelwert der Stichprobenmittelwerte entspricht in etwa dem Bevölkerungsmittelwert.
Was ich nicht verstehe, ist, dass Sie häufig "Eine Stichprobe von 100 Personen ..." sehen. Brauchen wir nicht 10 oder 100 Stichproben von 100 Personen, um die Bevölkerung des Mittelwerts zu schätzen? Oder ist es der Fall, dass wir eine einzige Stichprobe nehmen können, die groß genug ist, sagen wir 1000, und dann sagen wir, dass der Mittelwert sich dem Mittelwert der Grundgesamtheit annähert? ODER nehmen wir eine Stichprobe von 1000 Personen und dann 100 zufällige Stichproben von 100 Personen in jeder Stichprobe von den ursprünglich 1000 Personen, die wir genommen haben, und verwenden diese dann als unsere Annäherung?
Funktioniert es immer, eine ausreichend große Stichprobe zu nehmen, um sich dem Mittelwert (fast) anzunähern? Muss die Bevölkerung überhaupt normal sein, damit dies funktioniert?
quelle
sample std deviation / square root(n)
- die Quadratwurzel von n Teilen gibt an, dass sich die Schätzgenauigkeit für feste Inkremente als Stichprobengröße verschlechtert wird größer (z. B. durch die Bewegung von 10 auf 20 Personen in einer Stichprobe wird die Schätzgenauigkeit besser als durch die Bewegung von 210 auf 220 Personen.)quelle
Die Stichprobenverteilung des Mittelwerts ist die Verteilung ALLER Stichproben einer bestimmten Größe. Der Mittelwert der Stichprobenentfernung entspricht dem Mittelwert der Grundgesamtheit. Wenn wir über die Stichprobenentnahme des Mittelwerts für Stichproben einer bestimmten Größe sprechen, sprechen wir nicht über eine Stichprobe oder sogar über tausend Stichproben, sondern über alle Stichproben.
quelle
Die Stichprobenentfernung vom Mittelwert hat nichts mit Konfidenzintervallen zu tun. Das ist ein anderes Konzept. Bei Stichprobenentfernung kann die Population normal oder nicht normal sein. A) Wenn Pop normal ist, ist die Stichprobenentfernung des Mittelwerts für jede Stichprobengröße normal. b) Wenn Pop nicht normal ist, kann 1) die Stichprobenentfernung des Mittelwerts NICHT als normal angesehen werden, es sei denn, die Stichprobengröße beträgt 30 oder mehr. Dann sagt uns der zentrale Grenzwertsatz, dass der Abtastabstand als normal betrachtet werden kann.
Sie sprechen über Vorhersagen. Voraussagen haben auch damit nichts zu tun. Sie geben zu viel in samp dist ein. Die Probenentfernung ist einfach Alle Proben und dann wird der Mittelwert genommen. Und der Mittelwert aller dieser Stichproben, mu sub x bar, entspricht dem Mittelwert der Population, mu und der Standard-Dev od-Stichprobenentfernung, Sigma sub x bar = Sigma dividiert durch die Quadratwurzel von n. (Wir werden nicht über den finiten Popkorrekturfaktor sprechen. Nehmen Sie Ihre Statistik als Nennwert. Lesen Sie nicht zu viel in ein Konzept. Verstehen Sie zunächst das Grundkonzept.
PS Der Samp dist of mean hat nichts zu tun, um pr
quelle
Ich habe über Probleme mit Big Data nachgedacht und mir heute Morgen einige dieser Posts angesehen. Ich glaube nicht , das ein triviales Problem überhaupt ist, wieder den Unterschied zwischen der 1000 - Daten als ein Satz der Analyse im Vergleich zu 10 Sätze von 100. Bei der Analyse der Theorie , wenn die Nullhypothese wahr ist , dass die Daten iid sind, macht es nicht Unterschied. Clustering und Muster in den Daten werden jedoch überhaupt nicht angesprochen, wenn man einfach den Mittelwert der 1000 Daten nimmt und den geschätzten Mittelwert und den zugehörigen Standardfehler angibt.
Die Schlussfolgerung, zu der ich beim Betrachten einiger Seiten von StackExchange und Wikipedia gekommen bin, ist, dass Big Data das Offensichtliche sichtbar macht. Wenn es interessante Merkmale in der Gesamtbevölkerung gibt, würde ein großer Datensatz sie als Tag klar anzeigen. Wenn ich also einen sehr großen Datensatz hätte, den ich visuell betrachten könnte, würde ich nicht hineinspringen und kurze zusammenfassende Maßnahmen ergreifen, ohne zuerst nach sehr offensichtlichen Merkmalen Ausschau zu halten. Aus meinen ersten Lektionen in statistischer Inferenz habe ich gelernt, Diagramme und Visualisierungen der Daten als ersten Durchgang zu betrachten. Das kann ich nicht genug betonen. Wenn der Datensatz zu groß ist, als dass ein Mensch ihn auf einem Bildschirm betrachten könnte, sollte er mit einer für den Menschen lesbaren Auflösung unterabgetastet werden.
quelle