Was ist, wenn Sie eine Zufallsstichprobe entnehmen und feststellen, dass diese eindeutig nicht repräsentativ ist, wie in einer aktuellen Frage . Was ist zum Beispiel, wenn die Populationsverteilung bei 0 symmetrisch sein soll und die Stichprobe, die Sie zufällig ziehen, ungleiche positive und negative Beobachtungen aufweist und die Ungleichheit statistisch signifikant ist? Welche vernünftigen Aussagen können Sie über die Bevölkerung anhand einer voreingenommenen Stichprobe machen? Was ist eine vernünftige Vorgehensweise in einer solchen Situation? Ist es wichtig, wenn wir in unserer Forschung dieses Ungleichgewicht bemerken?
sampling
experiment-design
inference
sample
Joel W.
quelle
quelle
Antworten:
Die Antwort von MLS (Use Important Sampling) ist nur so gut wie die Annahmen, die Sie über Ihre Verteilungen treffen können. Die Hauptstärke des Paradigmas der endlichen Populationsstichprobe besteht darin, dass es nicht parametrisch ist, da es keine Annahmen über die Verteilung der Daten macht, um (gültige) Rückschlüsse auf die endlichen Populationsparameter zu ziehen.
Ein Ansatz zur Korrektur von Stichprobenungleichgewichten wird als Nachschichtung bezeichnet . Sie müssen die Stichprobe in nicht überlappende Klassen (nach Schichten) aufteilen und diese Klassen dann gemäß den bekannten Populationszahlen neu gewichten. Wenn bekannt ist, dass Ihre Bevölkerung einen Median von 0 hat, können Sie die positiven und negativen Beobachtungen so gewichten, dass ihre gewichteten Anteile 50-50 betragen. Wenn Sie eine unglückliche SRS mit 10 negativen Beobachtungen und 20 positiven Beobachtungen hätten, würden Sie die geben negative das gewicht von 15/10 = 1,5 und die positiven, 15/20 = 0,75.
Subtileren Formen der Probenkalibration Existieren , in dem Sie Ihre Probe kalibrieren können allgemeinere Einschränkungen, wie ein Mittelwert einer kontinuierlichen Variablen mit, dass er gleich den spezifischen Wert zu befriedigen. Die Symmetrieeinschränkung ist ziemlich schwierig zu bearbeiten, obwohl dies auch machbar sein könnte. Kann sein , Jean Opsomer etwas dazu hat er für Vermessungsdaten wurde eine Menge Kernel Schätzung Arbeit zu tun.
quelle
Ich bin hier das Junior-Mitglied, aber ich würde sagen, dass das Verwerfen und erneute Beginnen immer die beste Antwort ist, wenn Sie wissen, dass Ihre Stichprobe signifikant nicht repräsentativ ist und Sie eine Vorstellung davon haben, wie die nicht repräsentative Stichprobe überhaupt entstanden ist und wie man es nach Möglichkeit beim zweiten Mal vermeidet.
Was nützt es, ein zweites Mal zu probieren, wenn Sie wahrscheinlich im selben Boot landen?
If doing the data gathering again doesn't make sense or is prohibitively costly, you have to work with what you have, attempting to compensate for the unrepresentativeness via stratification, imputation, fancier modeling, or whatever. You need to clearly note that you compensated in this way, why you think it's necessary, and why you think it worked. Then work the uncertainty that arose from your compensation all the way through your analysis. (It will make your conclusions less certain, right?)
If you can't do that, you need to drop the project entirely.
quelle
This is a partial answer that assumes we know both the distributionq from which was sampled, and the true (or desired) distribution p . Additionally, I assume that these distributions are different. If the samples were actually obtained through p , but they look wrong: the samples are still unbiased and any adaptation (such as removing outliers) will likely add bias.
I assume you want to find some statisticsp=E{f(X)|X∼p} . For instance, s(p) might be the mean of the distribution, in which case f is the identity function. If you had samples {x1,…,xn} obtained through p , you could simply use
quelle