Ich habe auf dieser Website zahlreiche Fragen zu Bootstrapping und Konfidenzintervallen geprüft, bin aber immer noch verwirrt. Ein Grund für meine Verwirrung ist wahrscheinlich, dass ich in meinen statistischen Kenntnissen nicht weit genug fortgeschritten bin, um viele der Antworten zu verstehen. Ich bin ungefähr in der Mitte eines Statistik-Einführungskurses und mein Mathematiklevel liegt nur in der Mitte von Algebra II, also verwirrt mich alles, was darüber hinausgeht. Wenn einer der sachkundigen Personen auf dieser Website dieses Problem auf meiner Ebene erklären könnte, wäre dies äußerst hilfreich.
Wir haben in der Klasse gelernt, wie man Resamples mit der Bootstrap-Methode erstellt und daraus ein Konfidenzintervall für eine Statistik erstellt, die wir messen möchten. Angenommen, wir ziehen eine Stichprobe aus einer großen Population und stellen fest, dass 40% für Kandidat A stimmen. Wir gehen davon aus, dass diese Stichprobe die ursprüngliche Population ziemlich genau widerspiegelt. In diesem Fall können wir erneut Stichproben entnehmen es etwas über die Bevölkerung zu entdecken. Wir nehmen also Resamples und stellen (unter Verwendung eines 95% -Konfidenzniveaus) fest, dass das resultierende Konfidenzintervall zwischen 35% und 45% liegt.
Meine Frage ist, was bedeutet das Konfidenzintervall eigentlich bedeuten ?
Ich lese immer wieder, dass es einen Unterschied zwischen (häufigen) Konfidenzintervallen und (bayesianischen) glaubwürdigen Intervallen gibt. Wenn ich richtig verstanden hat , wäre ein glaubwürdiges Intervall sagen , dass es eine 95% ige Chance , dass in unserer Situation der wahren Parameter innerhalb des vorgegebenen Intervalls (35% -45%), während ein Konfidenzintervall sagen würde , dass es ein 95%, dass diese Art der Situation (aber nicht unbedingt in unserer Situation speziell) Die von uns verwendete Methode würde genau angeben, dass der wahre Parameter innerhalb des angegebenen Intervalls liegt.
Unter der Annahme, dass diese Definition korrekt ist, lautet meine Frage: Worum geht es bei der Verwendung von Konfidenzintervallen, die mit der Bootstrap-Methode erstellt wurden? Beziehen wir uns auf (a) den wahren Parameter der ursprünglichen Grundgesamtheit oder (b) den wahren Parameter der Stichprobe ? Wenn (a), dann würden wir sagen, dass die Bootstrap-Methode in 95% der Fälle zutreffende Aussagen über die ursprüngliche Population liefert. Aber woher können wir das wissen? Beruht die gesamte Bootstrap-Methode nicht auf der Annahmedass die ursprüngliche Stichprobe genau die Bevölkerung widerspiegelt, aus der sie entnommen wurde? Wenn (b) dann verstehe ich die Bedeutung des Konfidenzintervalls überhaupt nicht. Kennen wir den wahren Parameter der Stichprobe nicht schon? Es ist eine einfache Messung!
Ich habe das mit meiner Lehrerin besprochen und sie war sehr hilfsbereit. Aber ich bin immer noch verwirrt.
quelle
Was Sie sagen, ist, dass es nicht erforderlich ist, das Konfidenzintervall für Bootstrap-Resamples zu ermitteln. Wenn Sie mit der Statistik (Stichprobenmittelwert oder Stichprobenanteil) zufrieden sind, die Sie mit bootstrapped Resamples erhalten haben, finden Sie kein Konfidenzintervall und damit keine Frage der Interpretation. Wenn Sie jedoch mit der Statistik, die Sie durch Bootstrap-Resamples erhalten haben, nicht zufrieden sind oder dennoch das Konfidenzintervall ermitteln möchten, ist die Interpretation für dieses Konfidenzintervall dieselbe wie für jedes andere Konfidenzintervall. Dies liegt daran, dass Ihre bootstrap-Resamples genau die ursprüngliche Population darstellen (oder als solche angenommen werden), Wo ist dann die Notwendigkeit eines Konfidenzintervalls? Die Statistik aus den Bootstrapped-Resamples ist der ursprüngliche Populationsparameter selbst. Wenn Sie die Statistik jedoch nicht als ursprünglichen Populationsparameter betrachten, muss das Konfidenzintervall ermittelt werden. Es geht also nur darum, wie Sie darüber nachdenken. Angenommen, Sie haben ein Konfidenzintervall von 95% anhand von Bootstrap-Resamples berechnet. Nun lautet die Interpretation: "In 95% der Fälle führt diese Bootstrap-Methode genau zu einem Konfidenzintervall, das den wahren Populationsparameter enthält."
(Dies ist, was ich denke. Korrigieren Sie mich, wenn es Fehler gibt).
quelle
Wir beziehen uns auf den wahren Parameter der ursprünglichen Population. Dies ist unter der Annahme möglich, dass die Daten zufällig aus der ursprünglichen Grundgesamtheit gezogen wurden. In diesem Fall gibt es mathematische Argumente, die zeigen, dass die Bootstrap-Prozeduren ein gültiges Konfidenzintervall ergeben, zumindest wenn die Größe des Datensatzes ausreichend groß wird .
quelle