Wenn Sie lediglich eine erneute Stichprobe aus der empirischen Verteilung ziehen, warum nicht einfach die empirische Verteilung studieren? Warum nicht einfach die Variabilität aus der empirischen Verteilung quantifizieren, anstatt die Variabilität durch wiederholte Probenahme zu untersuchen?
13
Antworten:
Bootstrapping (oder ein anderes Resampling) ist eine experimentelle Methode, um die Verteilung einer Statistik abzuschätzen.
Dies ist eine sehr einfache und unkomplizierte Methode (es bedeutet lediglich, dass Sie mit vielen zufälligen Varianten der Probendaten rechnen, um eine Schätzung der gewünschten Verteilung der Statistik zu erhalten).
Sie verwenden es höchstwahrscheinlich, wenn der theoretische / analytische Ausdruck zu schwierig zu erhalten / zu berechnen ist (oder wie Aksakal sagt, manchmal sind sie unbekannt).
Beispiel 1: Wenn Sie eine pca-Analyse durchführen und die Ergebnisse mit 'Schätzungen der Abweichung der Eigenwerte' vergleichen möchten , unter der Annahme, dass die Variablen keine Korrelation aufweisen.
Sie können die Daten viele Male verschlüsseln und die pca-Eigenwerte neu berechnen, sodass Sie eine Verteilung (basierend auf Zufallstests mit den Beispieldaten) für die Eigenwerte erhalten.
Beachten Sie, dass die aktuellen Praktiken einen Geröllplot betrachten und Faustregeln anwenden, um zu „entscheiden“, ob ein bestimmter Eigenwert signifikant / wichtig ist oder nicht.
Beispiel 2: Sie haben eine nichtlineare Regression y ~ f (x) durchgeführt, um eine Schätzung der Parameter für die Funktion f zu erhalten. Nun möchten Sie den Standardfehler für diese Parameter kennen.
Ein einfacher Blick auf die Residuen und die lineare Algebra wie in OLS ist hier nicht möglich. Eine einfache Möglichkeit besteht jedoch darin, dieselbe Regression mit den erneut verwürfelten Residuen / Fehlern viele Male zu berechnen, um eine Vorstellung davon zu erhalten, wie sich die Parameter ändern würden (vorausgesetzt, die Verteilung für den Fehlerterm kann anhand der beobachteten Residuen modelliert werden).
Geschrieben von StackExchangeStrike
quelle
Der Schlüssel ist, dass es beim Bootstrap nicht wirklich darum geht, Merkmale der Verteilung der Daten herauszufinden, sondern vielmehr Merkmale eines Schätzers , der auf die Daten angewendet wird.
So etwas wie die empirische Verteilungsfunktion gibt Ihnen einen recht guten Überblick über die CDF, aus der die Daten stammen. Wenn Sie es jedoch isolieren, erfahren Sie im Wesentlichen nichts darüber, wie zuverlässig die Schätzer sind, die wir aus diesen Daten erstellen. Dies ist die Frage, die mithilfe von Bootstrap beantwortet wurde.
quelle
WENN Sie genau wissen, was die zugrunde liegende Verteilung ist, müssen Sie sie nicht studieren. In den Naturwissenschaften kennt man manchmal genau die Verteilung.
WENN Sie den Typ der Verteilung kennen, müssen Sie nur ihre Parameter abschätzen und in dem von Ihnen beabsichtigten Sinne untersuchen. Beispielsweise wissen Sie manchmal a priori, dass die zugrunde liegende Verteilung normal ist. In einigen Fällen wissen Sie sogar, was es bedeutet. Normalerweise muss also nur noch die Standardabweichung ermittelt werden. Sie erhalten die Standardabweichung der Stichprobe und voila die zu untersuchende Verteilung.
WENN Sie nicht wissen, was die Verteilung ist, aber denken, dass es sich um eine der mehreren in der Liste handelt, können Sie versuchen, diese Verteilung an die Daten anzupassen und diejenige auszuwählen, die am besten passt. Dann studierst du diese Verteilung.
SCHLIESSLICH wissen Sie oft nicht, mit welcher Art von Distribution Sie es zu tun haben. Und Sie haben keinen Grund zu der Annahme, dass es zu einer von 20 Distributionen gehört, in die R Ihre Daten einpassen kann. Was wirst du machen? Ok, du siehst mittlere und Standardabweichungen an, nett. Aber was ist, wenn es sehr schief ist? Was ist, wenn die Kurtosis sehr groß ist? und so weiter. Sie müssen wirklich alle Momente der Verteilung kennen , um sie zu kennen und zu studieren. In diesem Fall ist also nicht-parametrisches Bootstrapping praktisch. Sie nehmen nicht viel an und probieren es einfach aus, dann studieren Sie seine Momente und andere Eigenschaften.
Obwohl nicht-parametrisches Bootstrapping kein magisches Werkzeug ist, hat es Probleme. Zum Beispiel kann es voreingenommen sein. Ich denke, parametrisches Bootstrapping ist unvoreingenommen
quelle