Fragen zum parametrischen und nicht parametrischen Bootstrap

14

Ich lese gerade das Kapitel über Häufige Statistiken aus Kevin Murphys Buch " Maschinelles Lernen - Eine probabilistische Perspektive ". Der Abschnitt über Bootstrap lautet:

Der Bootstrap ist eine einfache Monte-Carlo-Technik zur Annäherung an die Stichprobenverteilung. Dies ist besonders in Fällen nützlich, in denen der Schätzer eine komplexe Funktion der wahren Parameter ist.

Die Idee ist einfach. Wenn wir die wahren Parameter , könnten wir aus der wahren Verteilung für s = 1 viele (sagen wir ) gefälschte Datensätze erzeugen , die jeweils die Größe haben : S, i = 1: N . Wir könnten dann unseren Schätzer aus jeder Stichprobe berechnen, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) und die empirische Verteilung der resultierenden Stichproben als unsere Schätzung der Stichprobenverteilung verwenden. Da \ unbekannt ist, besteht die Idee des parametrischen Bootstraps darin, die Samples stattdessen mit \ hat {\ (D) zu generieren . SN x s i ~p(· | θ * )s=1:S,i=1:N ^ θ s =f( x s 1 : N )θθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Eine Alternative, die als nicht-parametrischer Bootstrap bezeichnet wird , besteht darin, das xis (mit Ersetzung) aus den ursprünglichen Daten D abzutasten und dann die induzierte Verteilung wie zuvor zu berechnen. Einige Methoden zur Beschleunigung des Bootstraps bei großen Datenmengen werden in (Kleiner et al. 2011) erörtert.

  • 1 . Der Text sagt:

    Wenn wir die wahren Parameter wusste θ ... wir unsere Schätzer aus jeder Probe berechnen könnte, θs^ ...

        aber warum sollte ich die Schätzer für jede Probe verwenden , wenn ich bereits die wahren Parameter wissen θ ?

  • 2 . Was ist hier der Unterschied zwischen der empirischen Verteilung und der Stichprobenverteilung?

  • 3 . Schließlich verstehe ich den Unterschied zwischen parametrischem und nicht parametrischem Bootstrap aus diesem Text nicht ganz . Beide schließen θ aus dem Satz von Beobachtungen D , aber was genau ist der Unterschied?

Amelio Vazquez-Reina
quelle

Antworten:

14

Die Antwort von miura ist nicht ganz richtig, deshalb beantworte ich diese alte Frage für die Nachwelt:

(2). Das sind sehr unterschiedliche Dinge. Das empirische cdf ist eine Schätzung der CDF (Verteilung), die die Daten erzeugt hat. Genau genommen ist es die diskrete CDF, die jedem beobachteten Datenpunkt die Wahrscheinlichkeit zuweist , für jedes . Dieser Schätzer konvergiert fast sicher für jedes (tatsächlich gleichförmig) gegen das wahre cdf: ).F ( x ) = 11/nx F (x)F(x)=P(XiF^(x)=1ni=1nI(Xix)xxF^(x)F(x)=P(Xix)x

Die Stichprobenverteilung einer Statistik ist stattdessen die Verteilung der Statistik, die Sie bei wiederholtem Experimentieren erwarten würden. Das heißt, Sie führen Ihren Test einmal durch und erfassen die Daten . ist eine Funktion Ihrer Daten: . Angenommen, Sie wiederholen das Experiment und erfassen die Daten . Die Neuberechnung von T für die neue Stichprobe ergibt . Wenn wir 100 Proben gesammelt würden wir 100 Schätzungen haben . Diese Beobachtungen von bilden die Stichprobenverteilung vonX 1 , , X nTX1,,XnT = T ( X 1 , ... , X n ) , X ' 1 , ... , X ' n T ' = T ( X ' 1 , ... , X ' n ) T T TTT=T(X1,,Xn)X1,,XnT=T(X1,,Xn)TTT. Es ist eine wahre Verteilung. Wenn die Anzahl der Experimente gegen unendlich geht, konvergiert ihr Mittelwert gegen und ihre Varianz gegen .V a r ( T )E(T)Var(T)

Im Allgemeinen natürlich tun wir nicht wiederholen Experimente wie diese, die wir je nur eine Instanz sehen . Aus einer einzelnen Beobachtung herauszufinden, wie groß die Varianz von ist, ist sehr schwierig, wenn Sie die zugrunde liegende Wahrscheinlichkeitsfunktion von a priori nicht kennen . Bootstrapping ist eine Möglichkeit, die Stichprobenverteilung von zu schätzen, indem künstlich "neue Experimente" ausgeführt werden, mit denen neue Instanzen von berechnet werden . Jedes neue Sample ist eigentlich nur ein Resample der Originaldaten. Dass dies Ihnen mehr Informationen liefert als Sie in den Originaldaten haben, ist mysteriös und absolut fantastisch.T T T TTTTTT

(1). Sie haben Recht - das würden Sie nicht tun. Der Autor versucht, den parametrischen Bootstrap zu motivieren, indem er beschreibt, dass er tut, "was Sie tun würden, wenn Sie die Verteilung kennen", aber einen sehr guten Schätzer für die Verteilungsfunktion ersetzt - das empirische cdf.

Angenommen, Sie wissen, dass Ihre Teststatistik normalerweise mit dem Mittelwert Null und der Varianz Eins verteilt ist. Wie schätzen Sie die Stichprobenverteilung von ? Nun, da Sie die Verteilung kennen, besteht eine alberne und redundante Methode zur Schätzung der Stichprobenverteilung darin, R zu verwenden, um etwa 10.000 normale Zufallsvariablen zu generieren, dann deren Stichprobenmittelwert und -varianz zu nehmen und diese als unsere Schätzungen des Mittelwerts und zu verwenden Varianz der Stichprobenverteilung von .T TTTT

Wenn wir die Parameter von a priori nicht kennen , aber wissen, dass sie normal verteilt sind, können wir stattdessen etwa 10.000 Stichproben aus dem empirischen cdf generieren, für jede von ihnen berechnen und dann den Stichprobenmittelwert nehmen und die Varianz dieser 10.000 s, und sie als unsere Schätzungen des Erwartungswertes und Varianz verwendet . Da das empirische cdf ein guter Schätzer für das wahre cdf ist, sollten die Stichprobenparameter gegen die wahren Parameter konvergieren. Dies ist der parametrische Bootstrap: Sie setzen ein Modell auf die zu schätzende Statistik. Das Modell wird durch einen Parameter indiziert, z. B. , den Sie aus wiederholten Stichproben aus dem ecdf abschätzen.TTTT(μ,σ)

(3). Der nichtparametrische Bootstrap erfordert nicht einmal, dass Sie a priori wissen, dass normal verteilt ist. Stattdessen ziehen Sie einfach wiederholte Stichproben aus dem ecdf und berechnen für jede. Nachdem Sie ungefähr 10.000 Stichproben gezogen und 10.000 s berechnet haben , können Sie ein Histogramm Ihrer Schätzungen zeichnen. Dies ist eine Visualisierung der Stichprobenverteilung vonTTTT. Der nichtparametrische Bootstrap sagt Ihnen nicht, dass die Stichprobenverteilung normal ist, oder Gamma oder so weiter, aber er ermöglicht es Ihnen, die Stichprobenverteilung (normalerweise) so genau wie nötig zu schätzen. Es werden weniger Annahmen getroffen und weniger Informationen bereitgestellt als beim parametrischen Bootstrap. Es ist weniger genau, wenn die parametrische Annahme wahr ist, aber genauer, wenn sie falsch ist. Welches Sie in jeder Situation verwenden, hängt ganz vom Kontext ab. Zwar sind mehr Leute mit dem nichtparametrischen Bootstrap vertraut, aber häufig macht eine schwache parametrische Annahme ein vollständig schwer zu handhabendes Modell für Schätzungen zugänglich, was sehr schön ist.

guest47
quelle
1
Ich bin verwirrt über Ihre Beschreibung des parametrischen Bootstraps. "Stattdessen können wir 10.000 oder mehr Beispiele aus dem empirischen cdf generieren." Mein Verständnis des parametrischen Bootstraps ist, dass Sie ein Modell verwenden, das an die Daten angepasst ist. Dies ist, was das ursprüngliche Zitat aus dem Murphy-Buch beschreibt. Ich könnte falsch lesen, aber das Abtasten aus der empirischen CDF der Daten würde das direkte Abtasten der Datenpunkte bedeuten, was der Standard-Bootstrap wäre, nicht wahr?
user20160
@ user20160 Sie interpretieren das "Statt" der Antwort falsch: Er beschreibt den nichtparametrischen Bootstrap, nicht den parametrischen.
Daknowles
4

Ich schätze die Bemühungen von guest47 sehr, aber ich bin mit seiner Antwort in einigen kleinen Aspekten nicht ganz einverstanden. Ich würde meine Meinungsverschiedenheiten nicht direkt zum Ausdruck bringen, sondern sie in dieser Antwort widerspiegeln.

  1. In vielen Fällen ist es überflüssig, zu berechnenθ^s wenn wir den wahren zugrunde liegenden Parameter bereits kennen . Es ist jedoch immer noch nützlich, wenn wir die Genauigkeit und Präzision von bei der Schätzung von möchten . Außerdem wird Ihnen der erste Absatz in Ihrer zitierten Passage das Verständnis des Begriffs "parametrischer Bootstrap" erleichtern, auf den ich gleich noch eingehen werde.θθ^sθ

  2. Guest47 gibt eine gute Antwort. Keine Notwendigkeit, mehr auszuarbeiten.

  3. Beim parametrischen Bootstrapping haben Sie die beobachteten Daten D. Sie erstellen ein parametrisches Modell, um die Daten anzupassen, und verwenden Schätzer (was eine Funktion von Daten D ist) für die wahren Parameter . Dann generieren Sie Tausende von Datensätzen aus dem parametrischen Modell mit und schätzen für diese Modelle. Beim nichtparametrischen Bootstrapping verwenden Sie D, sample (tausende Male) direkt genau von D, anstatt von generierten Daten. θ^θθ^θ^s

QINGYUAN FENG
quelle
2

Ich bin kein Experte, aber für das, was es wert ist:

  1. Weil Sie an der Stichprobenverteilung interessiert sind, wie im ersten Satz Ihres Zitats erwähnt.

  2. Die empirische Verteilung ist die Verteilung, die Sie in Ihrer endlichen Anzahl von Stichproben sehen. Die Stichprobenverteilung ist diejenige, die Sie sehen würden, wenn Sie eine unendliche Anzahl von Stichproben entnehmen würden.

Ich kann nicht antworten 3. Ich habe immer verstanden, was hier als nichtparametrischer Bootstrap als "der" Bootstrap beschrieben wird.

Wenn Sie das Konzept der Sampling-Verteilung noch nicht vollständig verstanden haben, gibt es hier einen wirklich netten Thread mit sehr anschaulichem R-Code.

miura
quelle
5
Der Unterschied zwischen dem parametrischen und dem nichtparametrischen Bootstrap besteht darin, dass ersterer seine Stichproben aus der (angenommenen) Verteilung der Daten unter Verwendung der geschätzten Parameterwerte generiert, während letzterer seine Stichproben durch Ersetzen aus den beobachteten Daten generiert - es wird kein parametrisches Modell angenommen .
jbowman
@jbowman - Der "nicht parametrische" Bootstrap hat ein zugrunde liegendes Modell - nur, dass es sich um ein anderes Modell handelt als das, das zum Motivieren der Parameterschätzung verwendet wurde.
Wahrscheinlichkeitslogik
@miura Bitte vandalisiere deine Antwort nicht. Wenn Sie möchten, dass der Fragesteller eine andere Antwort wählt, kommentieren Sie die Frage. Wenn Sie möchten, dass Ihre Antwort gelöscht wird, markieren Sie sie bitte und fragen Sie danach.
Glen_b