Ich bin ziemlich neu in der Statistik (eine Handvoll Uni-Kurse für Anfänger) und habe mich über Stichproben aus unbekannten Distributionen gewundert. Wenn Sie keine Ahnung von der zugrunde liegenden Verteilung haben, gibt es eine Möglichkeit, zu "garantieren", dass Sie eine repräsentative Stichprobe erhalten?
Beispiel zur Veranschaulichung: Angenommen, Sie versuchen, die globale Verteilung des Wohlstands herauszufinden. Für jede Person kann man irgendwie ihren genauen Reichtum herausfinden; Aber Sie können nicht jede einzelne Person auf der Erde "probieren". Nehmen wir also an, Sie befragen n = 1000 Personen nach dem Zufallsprinzip.
Wenn Ihre Stichprobe Bill Gates nicht enthielt, könnten Sie denken, dass es keine Milliardäre gibt.
Wenn Sie Bill Gates in Ihre Stichprobe aufgenommen haben, könnten Sie denken, dass Milliardäre häufiger sind als sie tatsächlich sind.
In beiden Fällen kann man nicht wirklich sagen, wie häufig oder selten Milliardäre sind. Sie können möglicherweise nicht einmal feststellen, ob überhaupt welche vorhanden sind.
Gibt es für einen solchen Fall einen besseren Stichprobenmechanismus?
Wie würden Sie a priori mitteilen, welches Probenahmeverfahren anzuwenden ist (und wie viele Proben benötigt werden)?
Es scheint mir, dass Sie möglicherweise einen großen Prozentsatz der Bevölkerung "befragen" müssen, um mit hinreichender Sicherheit zu wissen, wie häufig oder selten Milliardäre auf dem Planeten sind, und dass dies darauf zurückzuführen ist, dass die zugrunde liegende Verteilung etwas schwierig ist arbeiten mit.
Antworten:
Ich bestreite Ihre Behauptung, dass "In beiden Fällen können Sie nicht wirklich sagen, wie häufig oder selten Milliardäre sind". Sei der unbekannte Anteil der Milliardäre in der Bevölkerung. Mit einem einheitlichen Prior vor ist die hintere Verteilung von nach Ziehungen, bei der sich herausstellte, dass sie 0 Milliardäre hat, eine Beta-Verteilung (1.1001), die folgendermaßen aussieht: f f 1000f f f 1000
Während die hintere Verteilung von nach Zügen, die sich als 1 Milliardär herausstellte, eine Beta-Verteilung (2.1000) ist, sieht dies folgendermaßen aus: 1000f 1000
In beiden Fällen können Sie ziemlich sicher sein, dass . Sie könnten denken, dass das nicht präzise genug ist. Tatsächlich ist 0,01 für eine Stichprobe der Größe 1000 ziemlich genau. Die meisten anderen Größen, die Sie möglicherweise schätzen, wären weniger genau. Beispielsweise konnte der Anteil der Männchen nur innerhalb eines Bereichs der Größe 0,1 geschätzt werden.f<0.01
quelle
Sie können zwei Dinge tun (separat oder in Kombination).
Modellieren Sie den Schwanz
Eine besteht darin, das Ende der Verteilung unter Verwendung einer parametrischen Verteilung zu modellieren. Es ist bekannt, dass Machtgesetze gut zur Verteilung des Reichtums passen. Versuchen Sie es also mit einer Pareto-Verteilung. Sie würden diese Verteilung entweder mit maximaler Wahrscheinlichkeit anpassen, dh indem Sie die Parameter finden, die Ihre Stichprobe am besten repräsentieren. Oder besser, Sie könnten einen Bayes'schen Priors auf die Parameter setzen und den vollen Posterior berechnen.
Leider sind Potenzgesetze sehr empfindlich gegenüber Parametern, und ohne viele große Datenpunkte in Ihrer Stichprobe besteht eine große Unsicherheit über den Exponenten. Die geschätzte Anzahl von Milliardären wird für diesen Parameter empfindlich sein, aber viel weniger als das durchschnittliche Vermögen von Milliardären, so dass die Situation nicht allzu schlecht ist.
Wichtigkeitsstichprobe
Die andere besteht darin, die Art und Weise zu ändern, in der Sie Ihre Probe sammeln. Angenommen, Sie vermuten (wie Sie sollten), dass es in Monaco oder Zürich mehr Milliardäre pro Kopf gibt als in Mogadishiu. Wenn Sie die Bevölkerung jeder dieser Städte kennen, können Sie eine größere Stichprobe in den Städten sammeln, in denen Sie mehr Milliardäre erwarten, und eine kleinere in den anderen.
Nehmen wir also an, Zürich hat 400.000 Menschen und Mogadischu 1.400.000 und wir wollen 9.000 Menschen befragen. Wir interessieren uns hier für die Anzahl der Millionäre, nicht für Milliardäre.
Eine unvoreingenommene Stichprobe würde 2.000 Menschen in Zürich und 7.000 in Mogadischu auswählen. Wir werden die Stichprobe jedoch durch siebenfache Stichproben aus Zürich verzerren. Wir werden also "so tun", als hätte Zürich 2.800.000 Menschen und werden uns später anpassen. Das heißt, wir werden 6.000 Menschen in Zürich anstelle von 2.000 und 4.000 in Mogadischu befragen.
Nehmen wir an, wir zählen 21 Millionäre in unserer Zürcher Stichprobe und nur 1 in unserer Mogadischu-Stichprobe. Da wir Zürich 7-fach überprobiert haben, würden wir es nur als 3 Millionäre zählen.
Dieses Verfahren verringert die Varianz Ihres Schätzers. Es kann auch in Verbindung mit der ersten Methode verwendet werden. In diesem Fall passen Sie die Wichtigkeitsabtastung an, wenn Sie eine parametrische Verteilung anpassen.
quelle
Ich denke, eine gute Stichprobenmethode basiert auf Vorkenntnissen des Systems. In Ihrem Bereich haben Sie Kenntnisse über mögliche Verzerrungen, die sich auf Ihre Probenahme auswirken können. Wenn Sie dieses Wissen nicht haben, können Sie es aus der Literatur erwerben.
In Ihrem Beispiel wissen Sie, dass es Milliardäre gibt und dass diese Ihre Stichprobe beeinflussen könnten. Sie können also entscheiden, die Stichprobe nach Bildungsniveau, Land, Art des Jobs usw. zu schichten. Es gibt mehrere Möglichkeiten.
Versuchen wir es mit einem anderen Beispiel. Ihr Ziel ist es, die Häufigkeit einer Mäuseart in einem Park zu bestimmen. In diesem Park gibt es Wald und Wiesen. Aus der Literatur wissen Sie, dass Mäuse im Wald häufiger vorkommen als auf Wiesen. Sie schichten Ihre Stichprobe also nach diesem Merkmal. Es ist ein anderes Stichprobenverfahren möglich, aber ich denke, Ihre besten Informationen stammen aus der vorhandenen Literatur.
Und wenn es keine Literatur zu Ihrem Fach gibt? Unwahrscheinlich, aber in diesem Zusammenhang würde ich eine Vorstudie durchführen, um festzustellen, welche Faktoren für die Probenahme berücksichtigt werden müssen.
quelle
Ob eine Probe repräsentativ ist oder nicht, hat nichts mit den beobachteten Messungen der Probe zu tun. Eine Stichprobe ist repräsentativ, wenn jeder Satz von Beobachtungseinheiten die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden wie jeder andere Satz derselben Größe. Dies ist natürlich nur schwer möglich, wenn Sie eine vollständige Aufzählung Ihres Probenraums erhalten. Angenommen, Sie können dies (z. B. anhand von Daten des Zensus-Trakts) ermitteln, ist eine einfache Zufallsstichprobe repräsentativ.
Unabhängig davon, wie Sie Ihre Probe erhalten, müssen immer mindestens drei verschiedene Fehlerquellen berücksichtigt werden:
Stichprobenfehler: Durch Zufall nehmen Sie Bill Gates in Ihre repräsentative Stichprobe auf. Statistische Methoden, insbesondere die Breite der Konfidenzintervalle usw., sollen dies berücksichtigen, vorausgesetzt, Sie haben einige grobe Kenntnisse über die vorliegende Verteilung (z. B. Normalität, die die Vermögensverteilung definitiv nicht besitzt).
Stichprobenverzerrung: Die Stichprobe war nicht repräsentativ. Beispiel: Bill Gates hat eine nicht aufgeführte Nummer, sodass Ihre Telefonumfrage ihn niemals erreichen könnte (es sei denn, Sie verwenden so etwas wie "Zufallswahl"). Dies ist ein extremes Beispiel, aber die Stichprobenverzerrung ist sehr weit verbreitet. Ein häufiges Ereignis ist die Entnahme von Vor-Ort- oder Convenience-Proben: Sie befragen Restaurantgäste im Restaurant , ob ihnen der Ort gefällt, wie oft sie dort waren und ob sie zurückkehren möchten. Wiederholte Kunden werden weitaus häufiger befragt als einmalige Kunden, und Stichproben dieser Art können in ihren Einstellungen stark verzerrt sein.
Antwortverzerrung: Die Messungen selbst sind ungenau. Dies kann durch Fehlfunktionen des Messgeräts über bewusstes Lügen bis hin zu Quanteneffekten (z. B. Heisenbergs Unsicherheitsprinzip) verursacht werden.
quelle