Ich habe Schwierigkeiten gehabt, die Bedeutung von "Zufallsstichprobe" und "iid Zufallsvariable" zu verstehen. Ich habe versucht, die Bedeutung aus mehreren Quellen herauszufinden, wurde aber immer verwirrter. Ich poste hier, was ich versucht und erfahren habe:
Degroots Wahrscheinlichkeit & Statistik sagt:
Zufällige Stichproben / iid / Stichprobengröße: Betrachten Sie eine gegebene Wahrscheinlichkeitsverteilung auf der realen Linie, die entweder durch einen pf oder ein pdf . Es wird gesagt, dass Zufallsvariablen bilden eine Zufallsstichprobe aus dieser Verteilung, wenn diese Zufallsvariablen unabhängig sind und der marginale pf oder pdf von jedem von ihnen . Solche Zufallsvariablen sollen auch unabhängig und identisch verteilt sein, abgekürzt iid Wir bezeichnen die Anzahl n der Zufallsvariablen als Stichprobengröße.
Aber eines der anderen Statistikbücher, die ich habe, sagt:
In einer Zufallsstichprobe garantieren wir, dass jede einzelne Einheit in der Population die gleiche Chance (Wahrscheinlichkeit) hat, ausgewählt zu werden.
Ich habe also das Gefühl, dass iids Elemente sind, die eine Zufallsstichprobe bilden, und das Verfahren, um eine Zufallsstichprobe zu erhalten, ist eine Zufallsstichprobe. Habe ich recht?
PS: Ich bin sehr verwirrt über dieses Thema, daher würde ich mich über eine ausführliche Antwort freuen. Vielen Dank.
quelle
Antworten:
Sie sagen nicht, was das andere Statistikbuch ist, aber ich würde vermuten, dass es sich um ein Buch (oder einen Abschnitt) über endliche Bevölkerungsstichproben handelt .
Wenn Sie Zufallsvariablen abtasten, dh wenn Sie eine Menge von von Zufallsvariablen betrachten, wissen Sie, dass wenn sie unabhängig sind, und gleichverteilt , insbesondere und für alle , dann: wobei die zweite ist zentraler Moment. n f ( x 1 , … , x n ) = f ( x 1 ) ≤ f ( x n ) E ( X i ) = μ Var ( X i ) = σ 2 i ≤ X = ≤ i X iX1, … , Xn n f( x1, … , Xn) = f( x1) ⋯ f( xn) E( Xich) = μ Var ( Xich) = σ2 ich σ2
Die Auswahl einer endlichen Population ist etwas anders. Wenn die Population die Größe , gibt es bei der ersatzlosen Stichprobe mögliche Stichproben der Größe und sie sind gleich wahrscheinlich: Wenn beispielsweise und , ist der Probenraum und die möglichen Beispiele sind:N sinp(si)=1( Nn) sich n N=5n=3{s1,...,s10} s 1 ={1,2,3}, s 2 ={1,2,4}, s 3 ={1,2,5}, s 4 ={1,3,4},
Sei ein Polulationsmittel (mittlere Größe, mittleres Einkommen, ...). Wenn , können Sie wie bei Stichproben mit zufälligen Variablen schätzen : aber die Stichprobe Die mittlere Varianz ist unterschiedlich: wobei ist die Populationsquasivarianz: . Der Faktor wird üblicherweise als " endlicher Populationskorrekturfaktor " bezeichnet.n < N μ ¯ y s = n Σ i = 1 y i ,μ n < N μ Var ( ¯ y s ) = ~ σ 2
Dies ist ein kurzes Beispiel dafür, wie sich eine Zufallsstichprobe (Zufallsvariable) und eine Zufallsstichprobe (endliche Population) unterscheiden können. Bei der statistischen Inferenz geht es hauptsächlich um Stichproben mit Zufallsvariablen, bei der Stichproben-Theorie um Stichproben mit endlicher Bevölkerungszahl.
quelle
Ich werde Sie nicht mit probabilistischen Definitionen und Formeln langweilen, die Sie leicht in jedem Lehrbuch finden können (oder hier ist ein guter Ausgangspunkt).
Denken Sie nur intuitiv daran, dass Zufallsstichproben eine Reihe von Zufallswerten sind. Im Allgemeinen kann jeder der Werte entweder identisch oder unterschiedlich verteilt sein. sample ist ein Sonderfall der Zufallsstichprobe, bei dem jeder Wert aus der gleichen Verteilung stammt wie die anderen und der Wert keinen Einfluss auf andere Werte hat. Die Unabhängigkeit befasst sich damit, die Werte generiert wurdenich . ich . d. h o w
non Beispiel: Jetzt mache dasselbe, aber ohne die Karte wieder in den (ich hoffe, du füllst die Differenz jetzt aus). Wieder haben Sie 5 realisierte Werte (Karten), nachdem Sie dies getan haben. Aber klar sind sie abhängig (die Tatsache, dass Sie das Pik-As bei der ersten Ziehung ziehen, bedeutet, dass Sie keine Chance haben, bei der zweiten Ziehung mitzumachen).ich . ich . d.
quelle
Eine zufällige Variable, die normalerweise mit X geschrieben wird, ist eine Variable, deren mögliche Werte numerische Ergebnisse eines zufälligen Phänomens sind. Das Zufallsphänomen kann zu Ergebnissen führen, deren numerische Werte von der Zufallsvariablen erfasst werden (z. B. Anzahl der Köpfe in 10 Münzwürfen oder Einkommen / Höhen usw. in einer Stichprobe). Dies ist jedoch nicht erforderlich.
Im Allgemeinen ist eine Zufallsvariable eine Funktion, die zufällige Ergebnisse numerischen Werten zuordnet. ZB kann jeder Tag sonnig, bewölkt oder regnerisch sein. Wir können eine Zufallsvariable definieren, die den Wert 1 annimmt, wenn es regnet, 2 wenn es bewölkt ist und 3 wenn es sonnig ist. Die Domäne einer Zufallsvariablen ist die Menge der möglichen Ergebnisse.
Um eine Zufallsvariable zu erstellen, muss es einen Prozess oder ein Experiment geben, der bzw. das mit möglichen Ergebnissen verbunden ist, die nicht mit Sicherheit vorhergesagt werden können.
Kommen wir nun zum Thema Unabhängigkeit. Zwei Zufallsvariablen sind unabhängig, wenn der Wert einer davon die PDF der anderen nicht beeinflusst. Wir überarbeiten unsere Vorhersagen bezüglich der Wahrscheinlichkeiten verschiedener Werte einer Variablen nicht, wenn wir etwas über die andere Variable wissen. Im Falle der Unabhängigkeit sind die Posterior-PDFs daher mit den Prior-PDFs identisch. Wenn wir beispielsweise wiederholt eine unvoreingenommene Münze werfen, hat die Information, die wir über das Ergebnis der 5 vorherigen Würfe haben, keinen Einfluss auf unsere Vorhersage über den aktuellen Wurf. Sie beträgt immer 0,5. Wenn jedoch die Neigung der Münze unbekannt ist und als Zufallsvariable modelliert wird, wirkt sich das Ergebnis der vorherigen 5 Würfe auf unsere Vorhersagen zum aktuellen Wurf aus, da Rückschlüsse auf die unbekannte Neigung der Münze möglich sind.
Kommen wir nun zum Thema Sampling. Der Zweck von Sampling ist es, uns über die Eigenschaften einer zugrunde liegenden Distribution zu informieren, die nicht bekannt ist und abgeleitet werden muss. Denken Sie daran, dass sich eine Verteilung auf die relative Wahrscheinlichkeit möglicher Ergebnisse im Probenraum bezieht (der auch ein bedingtes Universum sein kann). Wenn wir also ein Sample erstellen, wählen wir eine endliche Anzahl von Ergebnissen aus dem Sample-Raum und reproduzieren den Sample-Raum in einem kleineren, besser handhabbaren Maßstab. Die gleiche Wahrscheinlichkeit bezieht sich dann auf den Prozess der Stichprobe, nicht auf die Wahrscheinlichkeit der Ergebnisse in der Stichprobe. Stichproben mit gleicher Wahrscheinlichkeit implizieren, dass die Stichprobe die Proportionen der Ergebnisse im ursprünglichen Stichprobenraum widerspiegelt. ZB wenn wir 10 fragen, 000 Personen, falls sie jemals verhaftet wurden, ist es wahrscheinlich, dass die Stichprobe, die wir erhalten werden, nicht repräsentativ für die Bevölkerung - den Stichprobenraum - ist, da sich Personen, die verhaftet worden wären, möglicherweise weigern könnten, zu antworten, weshalb der Anteil der möglichen Ergebnisse (festgenommen - nicht festgenommen) wird sich aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung unterscheiden. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden. Daher wird der Anteil der möglichen Ergebnisse (verhaftet - nicht verhaftet) aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung variieren. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden. Daher wird der Anteil der möglichen Ergebnisse (verhaftet - nicht verhaftet) aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung variieren. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden.
quelle
Eine Zufallsstichprobe ist die Realisierung einer Folge von Zufallsvariablen. Diese Zufallsvariablen können iid sein oder nicht.
quelle