Die Antwort von miura ist nicht ganz richtig, deshalb beantworte ich diese alte Frage für die Nachwelt:
(2). Das sind sehr unterschiedliche Dinge. Das empirische cdf ist eine Schätzung der CDF (Verteilung), die die Daten erzeugt hat. Genau genommen ist es die diskrete CDF, die jedem beobachteten Datenpunkt die Wahrscheinlichkeit zuweist , für jedes . Dieser Schätzer konvergiert fast sicher für jedes (tatsächlich gleichförmig) gegen das wahre cdf: ).F ( x ) = 11/nx F (x)→F(x)=P(Xi≤F^(x)=1n∑ni=1I(Xi≤x)xxF^(x)→F(x)=P(Xi≤x)x
Die Stichprobenverteilung einer Statistik ist stattdessen die Verteilung der Statistik, die Sie bei wiederholtem Experimentieren erwarten würden. Das heißt, Sie führen Ihren Test einmal durch und erfassen die Daten . ist eine Funktion Ihrer Daten: . Angenommen, Sie wiederholen das Experiment und erfassen die Daten . Die Neuberechnung von T für die neue Stichprobe ergibt . Wenn wir 100 Proben gesammelt würden wir 100 Schätzungen haben . Diese Beobachtungen von bilden die Stichprobenverteilung vonX 1 , … , X nTX1,…,XnT = T ( X 1 , ... , X n ) , X ' 1 , ... , X ' n T ' = T ( X ' 1 , ... , X ' n ) T T TTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT. Es ist eine wahre Verteilung. Wenn die Anzahl der Experimente gegen unendlich geht, konvergiert ihr Mittelwert gegen und ihre Varianz gegen .V a r ( T )E(T)Var(T)
Im Allgemeinen natürlich tun wir nicht wiederholen Experimente wie diese, die wir je nur eine Instanz sehen . Aus einer einzelnen Beobachtung herauszufinden, wie groß die Varianz von ist, ist sehr schwierig, wenn Sie die zugrunde liegende Wahrscheinlichkeitsfunktion von a priori nicht kennen . Bootstrapping ist eine Möglichkeit, die Stichprobenverteilung von zu schätzen, indem künstlich "neue Experimente" ausgeführt werden, mit denen neue Instanzen von berechnet werden . Jedes neue Sample ist eigentlich nur ein Resample der Originaldaten. Dass dies Ihnen mehr Informationen liefert als Sie in den Originaldaten haben, ist mysteriös und absolut fantastisch.T T T TTTTTT
(1). Sie haben Recht - das würden Sie nicht tun. Der Autor versucht, den parametrischen Bootstrap zu motivieren, indem er beschreibt, dass er tut, "was Sie tun würden, wenn Sie die Verteilung kennen", aber einen sehr guten Schätzer für die Verteilungsfunktion ersetzt - das empirische cdf.
Angenommen, Sie wissen, dass Ihre Teststatistik normalerweise mit dem Mittelwert Null und der Varianz Eins verteilt ist. Wie schätzen Sie die Stichprobenverteilung von ? Nun, da Sie die Verteilung kennen, besteht eine alberne und redundante Methode zur Schätzung der Stichprobenverteilung darin, R zu verwenden, um etwa 10.000 normale Zufallsvariablen zu generieren, dann deren Stichprobenmittelwert und -varianz zu nehmen und diese als unsere Schätzungen des Mittelwerts und zu verwenden Varianz der Stichprobenverteilung von .T TTTT
Wenn wir die Parameter von a priori nicht kennen , aber wissen, dass sie normal verteilt sind, können wir stattdessen etwa 10.000 Stichproben aus dem empirischen cdf generieren, für jede von ihnen berechnen und dann den Stichprobenmittelwert nehmen und die Varianz dieser 10.000 s, und sie als unsere Schätzungen des Erwartungswertes und Varianz verwendet . Da das empirische cdf ein guter Schätzer für das wahre cdf ist, sollten die Stichprobenparameter gegen die wahren Parameter konvergieren. Dies ist der parametrische Bootstrap: Sie setzen ein Modell auf die zu schätzende Statistik. Das Modell wird durch einen Parameter indiziert, z. B. , den Sie aus wiederholten Stichproben aus dem ecdf abschätzen.TTTT(μ,σ)
(3). Der nichtparametrische Bootstrap erfordert nicht einmal, dass Sie a priori wissen, dass normal verteilt ist. Stattdessen ziehen Sie einfach wiederholte Stichproben aus dem ecdf und berechnen für jede. Nachdem Sie ungefähr 10.000 Stichproben gezogen und 10.000 s berechnet haben , können Sie ein Histogramm Ihrer Schätzungen zeichnen. Dies ist eine Visualisierung der Stichprobenverteilung vonTTTT. Der nichtparametrische Bootstrap sagt Ihnen nicht, dass die Stichprobenverteilung normal ist, oder Gamma oder so weiter, aber er ermöglicht es Ihnen, die Stichprobenverteilung (normalerweise) so genau wie nötig zu schätzen. Es werden weniger Annahmen getroffen und weniger Informationen bereitgestellt als beim parametrischen Bootstrap. Es ist weniger genau, wenn die parametrische Annahme wahr ist, aber genauer, wenn sie falsch ist. Welches Sie in jeder Situation verwenden, hängt ganz vom Kontext ab. Zwar sind mehr Leute mit dem nichtparametrischen Bootstrap vertraut, aber häufig macht eine schwache parametrische Annahme ein vollständig schwer zu handhabendes Modell für Schätzungen zugänglich, was sehr schön ist.
Ich schätze die Bemühungen von guest47 sehr, aber ich bin mit seiner Antwort in einigen kleinen Aspekten nicht ganz einverstanden. Ich würde meine Meinungsverschiedenheiten nicht direkt zum Ausdruck bringen, sondern sie in dieser Antwort widerspiegeln.
In vielen Fällen ist es überflüssig, zu berechnenθ^s wenn wir den wahren zugrunde liegenden Parameter bereits kennen . Es ist jedoch immer noch nützlich, wenn wir die Genauigkeit und Präzision von bei der Schätzung von möchten . Außerdem wird Ihnen der erste Absatz in Ihrer zitierten Passage das Verständnis des Begriffs "parametrischer Bootstrap" erleichtern, auf den ich gleich noch eingehen werde.θ∗ θ^s θ∗
Guest47 gibt eine gute Antwort. Keine Notwendigkeit, mehr auszuarbeiten.
Beim parametrischen Bootstrapping haben Sie die beobachteten Daten D. Sie erstellen ein parametrisches Modell, um die Daten anzupassen, und verwenden Schätzer (was eine Funktion von Daten D ist) für die wahren Parameter . Dann generieren Sie Tausende von Datensätzen aus dem parametrischen Modell mit und schätzen für diese Modelle. Beim nichtparametrischen Bootstrapping verwenden Sie D, sample (tausende Male) direkt genau von D, anstatt von generierten Daten.θ^ θ∗ θ^ θ^s
quelle
Ich bin kein Experte, aber für das, was es wert ist:
Weil Sie an der Stichprobenverteilung interessiert sind, wie im ersten Satz Ihres Zitats erwähnt.
Die empirische Verteilung ist die Verteilung, die Sie in Ihrer endlichen Anzahl von Stichproben sehen. Die Stichprobenverteilung ist diejenige, die Sie sehen würden, wenn Sie eine unendliche Anzahl von Stichproben entnehmen würden.
Ich kann nicht antworten 3. Ich habe immer verstanden, was hier als nichtparametrischer Bootstrap als "der" Bootstrap beschrieben wird.
Wenn Sie das Konzept der Sampling-Verteilung noch nicht vollständig verstanden haben, gibt es hier einen wirklich netten Thread mit sehr anschaulichem R-Code.
quelle