Random Forests Out-of-Bag-Stichprobengröße

7

Ich lese die Beschreibung von RF hier .

Im Abschnitt "Wie zufällige Wälder funktionieren" steht:

Wenn der Trainingssatz für den aktuellen Baum durch Stichproben mit Ersatz gezogen wird, wird etwa ein Drittel der Fälle aus der Stichprobe herausgelassen. Diese oob-Daten (out-of-bag) werden verwendet, um eine laufende unvoreingenommene Schätzung des Klassifizierungsfehlers zu erhalten, wenn Bäume zum Wald hinzugefügt werden

Ich kann nicht verstehen, ob das Drittel der Fälle (Stichprobengröße aus der Tasche) wie folgt ist:

  • ein beliebiger Wert, der im Algorithmus definiert ist
  • eine Schätzung (z. B. wird bei Stichproben mit Ersatz ein Drittel der Fälle ausgelassen)

oder etwas anderes.

gc5
quelle

Antworten:

15

Es stammt aus der Konstruktion eines Bootstrap-Beispiels: Sie nehmen Beobachtungen mit Ersatz durch eine Stichprobengröße von . Die Wahrscheinlichkeit, dass eine Beobachtung ausgelassen wird, ist* Betrachten Sie nun die Definition von und beobachten Sie, dassnn(11n)n.exp(1)=limn(11n)nexp(1)=0.3678...13.


* Um dies zu überprüfen, definiere ich den Wahrscheinlichkeitsraum des Bootstraps: wobei jedes ist eine Beobachtung, . Wir werden die Boostrap-Probe als . Beachten Sie, dass wir dieses Feld da wir eine endliche Anzahl von Beobachtungen haben müssen. Wenn wir unsere Bootstrap-Stichprobe einzeln beobachten, tritt unser Ereignis von Interesse auf, wenn eine Beobachtung für die Bootstrap-Stichprobe ausgewählt wird, und wir müssen ein Wahrscheinlichkeitsmaß dafür definieren. Das heißt, .Ω={x1,x2,x3,,xn}xiI={iN:in}F=2ΩBσFExiP(E)=P({xiB})

Wir können uns das Zeichnen eines Bootstrap-Beispiels als Experiment vorstellen, bei dem es Versuche gibt. In jedem Versuch wird eine unserer Beobachtungen gleichmäßig zufällig mit Ersetzung ausgewählt, sodass entweder mit der Wahrscheinlichkeit oder schließe mit der WahrscheinlichkeitUnser Wahrscheinlichkeitsraum ist jetzt vollständig definiert. Das Experiment, das wir durchführen, hat Versuche, daher ist die Wahrscheinlichkeit, dass in allen weggelassen wird, .nxiP(E)=|E||Ω|=1n,xiP(Ec)=|Ω||E||Ω|=11n.(Ω,F,P)nxi(i=1nP(E))c=i=1nP(Ec)=(11n)n

Sycorax sagt Reinstate Monica
quelle
1
+1. Könnten Sie uns bitte daran erinnern, wie wir das Ergebnis ? Ich weiß, dass jeder das wissen sollte, aber in Wirklichkeit ist dies möglicherweise nicht der Fall, daher denke ich, dass dies hilfreich wäre. (11n)n
Antoine
@Antoine Ich habe gerade in diesem Semester etwas über Wahrscheinlichkeitsräume gelernt, daher ist meine Erweiterung wahrscheinlich übertrieben ...
Sycorax sagt Reinstate Monica
Hervorragende Erklärung, danke. Die rechte Seite Ihrer letzten Zeile gilt, weil die Ereignisse unabhängig sind, oder? (Unabhängigkeit von der Tatsache, dass die Probenahme durch Ersetzen erfolgt).
Antoine
Die Versuche müssen konstruktionsunabhängig sein: Jedes Ereignis hat eine bestimmte Wahrscheinlichkeit, die nur von der Kardinalität von und abhängt, da wir Stichproben mit Ersatz durchführen. EΩ
Sycorax sagt Reinstate Monica
@Antoine ist es wegen der Taylor-Reihe, die e ^ (n) erzeugt. Hier ist ein Beweis: aleph0.clarku.edu/~djoyce/ma122/elimit.pdf
drivers994