Handelt es sich um Synonyme für „Zufallsstichprobe“ und „Zufallsvariable“?

18

Ich habe Schwierigkeiten gehabt, die Bedeutung von "Zufallsstichprobe" und "iid Zufallsvariable" zu verstehen. Ich habe versucht, die Bedeutung aus mehreren Quellen herauszufinden, wurde aber immer verwirrter. Ich poste hier, was ich versucht und erfahren habe:

Degroots Wahrscheinlichkeit & Statistik sagt:

Zufällige Stichproben / iid / Stichprobengröße: Betrachten Sie eine gegebene Wahrscheinlichkeitsverteilung auf der realen Linie, die entweder durch einen pf oder ein pdf . Es wird gesagt, dass Zufallsvariablen bilden eine Zufallsstichprobe aus dieser Verteilung, wenn diese Zufallsvariablen unabhängig sind und der marginale pf oder pdf von jedem von ihnen . Solche Zufallsvariablen sollen auch unabhängig und identisch verteilt sein, abgekürzt iid Wir bezeichnen die Anzahl n der Zufallsvariablen als Stichprobengröße. $f$ $n$ $X_1 , . . . , X_n$ $f$

Aber eines der anderen Statistikbücher, die ich habe, sagt:

In einer Zufallsstichprobe garantieren wir, dass jede einzelne Einheit in der Population die gleiche Chance (Wahrscheinlichkeit) hat, ausgewählt zu werden.

Ich habe also das Gefühl, dass iids Elemente sind, die eine Zufallsstichprobe bilden, und das Verfahren, um eine Zufallsstichprobe zu erhalten, ist eine Zufallsstichprobe. Habe ich recht?

PS: Ich bin sehr verwirrt über dieses Thema, daher würde ich mich über eine ausführliche Antwort freuen. Vielen Dank.

sampling terminology iid Leise
quelle

6

Der Unabhängigkeitsteil ist sehr wichtig, da wir eine Stichprobe haben können, in der alle Variablen identisch verteilt sind (die gleiche Randverteilung haben), aber nicht unabhängig sind. Eine solche Stichprobe kann immer noch als Zufallsstichprobe betrachtet werden, aber nicht für das Experiment, von dem Sie glauben, dass es eine Zufallsstichprobe ist. Siehe diese Frage .

Dilip Sarwate

Die Frage scheint statistisch nicht sinnvoll zu sein. Die ID und die Zufallsstichprobe sind eindeutig unterschiedliche Konzepte, die von den Lesern aufgestellt wurden.

Subhash C. Davar

2

@ subhashc.davar Sind sie? Nach einer Definition: "Eine Zufallsstichprobe ist eine Folge von unabhängigen, identisch verteilten (IID) Zufallsvariablen". Es scheint also, dass iid und Zufallsstichprobe dasselbe sind? Der zitierte Absatz in Degroots Probability & Statistics sagt im Grunde das Gleiche. Ich finde es verwirrend, weil eine "Stichprobe" manchmal eine Einzelperson oder eine Gruppe von Einzelpersonen und manchmal eine Folge von Zufallsvariablen ist.

Gary Chang

@Gary Chang Die von Ihnen angegebene Definition bezieht sich auf pdf. Die Stichprobe von Zufallsvariablen war in der Disziplin der Psychometrie beliebt. Im Allgemeinen wird es in Bezug auf Zuverlässigkeit oder Validitätsschätzung und für eine Faktorenanalyse verwendet. Die Psychometrie ist daran interessiert, die Äquivalenz von Tests für einen Bereich festzustellen. Das iid-Konzept scheint aus der linearen Algebra zu stammen. Eine Stichprobe könnte aus einer bestimmten Population von Individuen und / oder aus einer Population von (zufälligen) Variablen stammen, abhängig vom Zweck einer Studie. Die heutige Statistik scheint der Messtheorie entlehnt zu sein.

Subhash C. Davar

9

Sie sagen nicht, was das andere Statistikbuch ist, aber ich würde vermuten, dass es sich um ein Buch (oder einen Abschnitt) über endliche Bevölkerungsstichproben handelt .

Wenn Sie Zufallsvariablen abtasten, dh wenn Sie eine Menge von von Zufallsvariablen betrachten, wissen Sie, dass wenn sie unabhängig sind, und gleichverteilt , insbesondere und für alle , dann: wobei die zweite ist zentraler Moment. $X_1,\dots,X_n$ $n$ $f(x_1,\dots,x_n)=f(x_1)\cdots f(x_n)$ $E(X_i)=\mu$ $\text{Var}(X_i)=\sigma^2$ $i$

\bar{X} = \frac{\sum_{ich} X_{ich}}{n}, E (\bar{X}) = μ, Var (\bar{X}) = \frac{σ^{2}}{n}

$\overline{X}=\frac{\sum_i X_i}{n},\quad E(\overline{X})=\mu,\quad \text{Var}(\overline{X})=\frac{\sigma^2}{n}$

σ^{2}

$\sigma^2$

Die Auswahl einer endlichen Population ist etwas anders. Wenn die Population die Größe , gibt es bei der ersatzlosen Stichprobe mögliche Stichproben der Größe und sie sind gleich wahrscheinlich: Wenn beispielsweise und , ist der Probenraum und die möglichen Beispiele sind: $N$ $\binom{N}{n}$ $s_i$ $n$

p (s_{ich}) = \frac{1}{(\binom{N}{n})} \forall ich = 1, \dots, (\binom{N}{n})

$p(s_i)=\frac{1}{\binom{N}{n}}\quad\forall i=1,\dots,\binom{N}{n}$

N = 5

$N=5$

n = 3

$n=3$

{s_{1}, \dots, s_{10}}

$\{s_1,\dots,s_{10}\}$

\begin{matrix} s_{1} = {1, 2, 3}, s_{2} = {1, 2, 4}, s_{3} = {1, 2, 5}, s_{4} = {1, 3, 4}, s_{5} = {1, 3, 5}, \\ s_{6} = {1, 4, 5}, s_{7} = {2, 3, 4}, s_{8} = {2, 3, 5}, s_{9} = {2, 4, 5}, s_{10} = {3, 4, 5} \end{matrix}

$\begin{gather}s_1=\{1,2,3\},s_2=\{1,2,4\},s_3=\{1,2,5\},s_4=\{1,3,4\},s_5=\{1,3,5\},\\ s_6=\{1,4,5\},s_7=\{2,3,4\},s_8=\{2,3,5\},s_9=\{2,4,5\},s_{10}=\{3,4,5\}\end{gather}$ Wenn Sie die Anzahl der Vorkommen jedes Individuums zählen, sehen Sie, dass es sich um sechs handelt, dh, jedes Individuum hat die gleiche Chance, ausgewählt zu werden (6/10). Jedes ist also eine Zufallsstichprobe nach der zweiten Definition. Grob gesagt handelt es sich nicht um eine zufällige Stichprobe, da Einzelpersonen keine zufälligen Variablen sind: Sie können durch einen Stichprobenmittelwert konsistent abschätzen , kennen aber nie seinen genauen Wert, aber Sie können den genauen Populationsmittelwert kennen, wenn (let Ich wiederhole: ungefähr.)

s_{i}

$s_i$

E [X]

$E[X]$

n = N

$n=N$

^{1}

${}^1$

Sei ein Polulationsmittel (mittlere Größe, mittleres Einkommen, ...). Wenn , können Sie wie bei Stichproben mit zufälligen Variablen schätzen : aber die Stichprobe Die mittlere Varianz ist unterschiedlich: wobei ist die Populationsquasivarianz: . Der Faktor wird üblicherweise als " endlicher Populationskorrekturfaktor " bezeichnet. $\mu$ $n<N$ $\mu$

{\bar{y}}_{s} = \sum_{ich = 1}^{n} y_{ich}, E ({\bar{y}}_{s}) = μ

$\overline{y}_s=\sum_{i=1}^n y_i,\quad E(\overline{y}_s)=\mu$

Var ({\bar{y}}_{s}) = \frac{{\tilde{σ}}^{2}}{n} (1 - \frac{n}{N})

$\text{Var}(\overline{y}_s)=\frac{\tilde\sigma^2}{n}\left(1-\frac{n}{N}\right)$

{\tilde{σ}}^{2}

$\tilde\sigma^2$

\frac{\sum_{i = 1}^{N} (y_{i} - \bar{y})^{2}}{N - 1}

$\frac{\sum_{i=1}^N(y_i-\overline{y})^2}{N-1}$

(1 - n / N)

$(1-n/N)$

Dies ist ein kurzes Beispiel dafür, wie sich eine Zufallsstichprobe (Zufallsvariable) und eine Zufallsstichprobe (endliche Population) unterscheiden können. Bei der statistischen Inferenz geht es hauptsächlich um Stichproben mit Zufallsvariablen, bei der Stichproben-Theorie um Stichproben mit endlicher Bevölkerungszahl.

${}^1$ Angenommen, Sie stellen Glühbirnen her und möchten deren durchschnittliche Lebensdauer kennen. Ihre "Bevölkerung" ist nur theoretisch oder virtuell, zumindest wenn Sie weiterhin Glühbirnen herstellen. Sie müssen also einen Datenerzeugungsprozess modellierenund interpretieren Sie einen Satz von Glühbirnen als (zufällige variable) Stichprobe. Sagen Sie jetzt, dass Sie eine Schachtel mit 1000 Glühbirnen finden und deren durchschnittliche Lebensdauer erfahren möchten. Sie können einen kleinen Satz von Glühbirnen auswählen (eine Stichprobe mit endlichen Populationen), aber Sie können auch alle auswählen. Wenn Sie eine kleine Stichprobe auswählen, werden Glühbirnen nicht in Zufallsvariablen umgewandelt. Die Zufallsvariable wird von Ihnen generiert, da Sie die Wahl zwischen "Alle" und "Kleine Menge" treffen können. Wenn jedoch eine endliche Bevölkerung sehr groß ist (sagen Sie, Ihre Landbevölkerung), ist die Auswahl von "alle" nicht realisierbar, und die zweite Situation ist besser als die erste zu handhaben.

Sergio
quelle

1

Was meinst du mit "Individuen sind keine Zufallsvariablen?" Whuber hat hier und hier einige wirklich schöne Antworten , die das Konzept einer Zufallsvariablen anhand einer endlichen Bevölkerungsstichprobe erklären.

jsk

Ich meine, was ich gesagt habe: Wenn dann gibt es keine Unsicherheit.

n = N

$n=N$

Sergio

Dies war nicht hilfreich, um Ihre Aussage zu präzisieren, die im direkten Widerspruch zu den in den Links gemachten Aussagen zu stehen scheint. Bitte, es besteht keine Notwendigkeit, defensiv zu sein. Der Punkt über hat nichts mit der Aussage zu tun, auf die ich neugierig bin. Außerdem ist eine entartete Zufallsvariable keine Zufallsvariable?

n = N

$n=N$

jsk

Defensive? Sie haben diese Links nicht verstanden. Wie Whubner sagt, a) ist das Ticket-in-a-Box-Modell nur ein Spielzeugbeispiel , um zu vermeiden, dass sich "das ist ein Zeug für Hochschulabsolventen" beschwert; b) er vermeidet es , die Tickets in einer Schachtel als "Bevölkerung" zu bezeichnen, und erklärt, warum. Es gibt also keinen Widerspruch . Wenn man verstehen kann, was Whubner gesagt hat. Übrigens, ich bin keine Zufallsvariable, oder?

Sergio

IMHO natürlich.

Sergio

2

Ich werde Sie nicht mit probabilistischen Definitionen und Formeln langweilen, die Sie leicht in jedem Lehrbuch finden können (oder hier ist ein guter Ausgangspunkt).

Denken Sie nur intuitiv daran, dass Zufallsstichproben eine Reihe von Zufallswerten sind. Im Allgemeinen kann jeder der Werte entweder identisch oder unterschiedlich verteilt sein. sample ist ein Sonderfall der Zufallsstichprobe, bei dem jeder Wert aus der gleichen Verteilung stammt wie die anderen und der Wert keinen Einfluss auf andere Werte hat. Die Unabhängigkeit befasst sich damit, die Werte generiert wurden $i.i.d.$ $how$

$i.i.d$ Beispiel: eine zufällige Karte aus einem sie zurück (mache dies 5 Mal). Sie erhalten 5 realisierte Werte (Karten). Jeder dieser Werte stammt aus einer gleichmäßigen Verteilung (es besteht die gleiche Wahrscheinlichkeit, dass jeder der Ergebnisse erzielt wird), und jedes Draw ist unabhängig von den anderen (dh die Tatsache, dass Sie beim ersten Draw ein Pik-Ass erhalten, hat keinen Einfluss auf das Ergebnis in irgendeiner Weise das Ergebnis, das Sie in anderen Ziehungen erhalten können).

non Beispiel: Jetzt mache dasselbe, aber ohne die Karte wieder in den (ich hoffe, du füllst die Differenz jetzt aus). Wieder haben Sie 5 realisierte Werte (Karten), nachdem Sie dies getan haben. Aber klar sind sie abhängig (die Tatsache, dass Sie das Pik-As bei der ersten Ziehung ziehen, bedeutet, dass Sie keine Chance haben, bei der zweiten Ziehung mitzumachen). $i.i.d.$

Alex Kreimer
quelle

1

Eine zufällige Variable, die normalerweise mit X geschrieben wird, ist eine Variable, deren mögliche Werte numerische Ergebnisse eines zufälligen Phänomens sind. Das Zufallsphänomen kann zu Ergebnissen führen, deren numerische Werte von der Zufallsvariablen erfasst werden (z. B. Anzahl der Köpfe in 10 Münzwürfen oder Einkommen / Höhen usw. in einer Stichprobe). Dies ist jedoch nicht erforderlich.
Im Allgemeinen ist eine Zufallsvariable eine Funktion, die zufällige Ergebnisse numerischen Werten zuordnet. ZB kann jeder Tag sonnig, bewölkt oder regnerisch sein. Wir können eine Zufallsvariable definieren, die den Wert 1 annimmt, wenn es regnet, 2 wenn es bewölkt ist und 3 wenn es sonnig ist. Die Domäne einer Zufallsvariablen ist die Menge der möglichen Ergebnisse.
Um eine Zufallsvariable zu erstellen, muss es einen Prozess oder ein Experiment geben, der bzw. das mit möglichen Ergebnissen verbunden ist, die nicht mit Sicherheit vorhergesagt werden können.

Kommen wir nun zum Thema Unabhängigkeit. Zwei Zufallsvariablen sind unabhängig, wenn der Wert einer davon die PDF der anderen nicht beeinflusst. Wir überarbeiten unsere Vorhersagen bezüglich der Wahrscheinlichkeiten verschiedener Werte einer Variablen nicht, wenn wir etwas über die andere Variable wissen. Im Falle der Unabhängigkeit sind die Posterior-PDFs daher mit den Prior-PDFs identisch. Wenn wir beispielsweise wiederholt eine unvoreingenommene Münze werfen, hat die Information, die wir über das Ergebnis der 5 vorherigen Würfe haben, keinen Einfluss auf unsere Vorhersage über den aktuellen Wurf. Sie beträgt immer 0,5. Wenn jedoch die Neigung der Münze unbekannt ist und als Zufallsvariable modelliert wird, wirkt sich das Ergebnis der vorherigen 5 Würfe auf unsere Vorhersagen zum aktuellen Wurf aus, da Rückschlüsse auf die unbekannte Neigung der Münze möglich sind.

Kommen wir nun zum Thema Sampling. Der Zweck von Sampling ist es, uns über die Eigenschaften einer zugrunde liegenden Distribution zu informieren, die nicht bekannt ist und abgeleitet werden muss. Denken Sie daran, dass sich eine Verteilung auf die relative Wahrscheinlichkeit möglicher Ergebnisse im Probenraum bezieht (der auch ein bedingtes Universum sein kann). Wenn wir also ein Sample erstellen, wählen wir eine endliche Anzahl von Ergebnissen aus dem Sample-Raum und reproduzieren den Sample-Raum in einem kleineren, besser handhabbaren Maßstab. Die gleiche Wahrscheinlichkeit bezieht sich dann auf den Prozess der Stichprobe, nicht auf die Wahrscheinlichkeit der Ergebnisse in der Stichprobe. Stichproben mit gleicher Wahrscheinlichkeit implizieren, dass die Stichprobe die Proportionen der Ergebnisse im ursprünglichen Stichprobenraum widerspiegelt. ZB wenn wir 10 fragen, 000 Personen, falls sie jemals verhaftet wurden, ist es wahrscheinlich, dass die Stichprobe, die wir erhalten werden, nicht repräsentativ für die Bevölkerung - den Stichprobenraum - ist, da sich Personen, die verhaftet worden wären, möglicherweise weigern könnten, zu antworten, weshalb der Anteil der möglichen Ergebnisse (festgenommen - nicht festgenommen) wird sich aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung unterscheiden. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden. Daher wird der Anteil der möglichen Ergebnisse (verhaftet - nicht verhaftet) aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung variieren. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden. Daher wird der Anteil der möglichen Ergebnisse (verhaftet - nicht verhaftet) aus systematischen Gründen zwischen unserer Stichprobe und der Bevölkerung variieren. Oder wenn wir eine bestimmte Nachbarschaft für die Durchführung einer Umfrage ausgewählt haben, sind die Ergebnisse nicht repräsentativ für die gesamte Stadt. Eine Stichprobe mit gleicher Wahrscheinlichkeit impliziert also, dass es keine systematischen Gründe gibt - außer der reinen Zufälligkeit -, aus denen wir glauben, dass sich die Anteile der möglichen Ergebnisse in unserer Stichprobe von den Anteilen der Ergebnisse in der Grundgesamtheit / im Stichprobenraum unterscheiden.

rf7
quelle

-2

Eine Zufallsstichprobe ist die Realisierung einer Folge von Zufallsvariablen. Diese Zufallsvariablen können iid sein oder nicht.

mohsen
quelle

Handelt es sich um Synonyme für „Zufallsstichprobe“ und „Zufallsvariable“?

Antworten: