Was versteht man unter Nähe in zufälligen Wäldern?

11

Ich bin auf den Begriff Nähe in zufälligen Wäldern gestoßen. Aber ich konnte nicht verstehen, was es in zufälligen Wäldern tut. Wie hilft es für Klassifizierungszwecke?

user3796494
quelle

Antworten:

11

Der Begriff "Nähe" bedeutet die "Nähe" oder "Nähe" zwischen Fallpaaren.

Die Annäherungen werden für jedes Paar von Fällen / Beobachtungen / Stichprobenpunkten berechnet. Wenn zwei Fälle über einen Baum denselben Endknoten belegen, wird ihre Nähe um eins erhöht. Am Ende des Laufs aller Bäume werden die Ähnlichkeiten durch Teilen durch die Anzahl der Bäume normalisiert. Annäherungen werden verwendet, um fehlende Daten zu ersetzen, Ausreißer zu lokalisieren und leuchtende niedrigdimensionale Ansichten der Daten zu erzeugen.

Nähe

Die Ähnlichkeiten bildeten ursprünglich eine NxN-Matrix. Nachdem ein Baum gewachsen ist, legen Sie alle Daten, sowohl Training als auch Oob, auf den Baum. Wenn sich die Fälle k und n im selben Endknoten befinden, erhöhen Sie ihre Nähe um eins. Normalisieren Sie am Ende die Nähe, indem Sie durch die Anzahl der Bäume dividieren.

Benutzer stellten fest, dass sie bei großen Datenmengen keine NxN-Matrix in einen schnellen Speicher einpassen konnten. Eine Modifikation reduzierte die erforderliche Speichergröße auf NxT, wobei T die Anzahl der Bäume im Wald ist. Um die rechenintensive Skalierung und das iterative Ersetzen fehlender Werte zu beschleunigen, hat der Benutzer die Möglichkeit, nur die nrnn größten Ähnlichkeiten zu jedem Fall beizubehalten.

Wenn ein Testsatz vorhanden ist, können auch die Ähnlichkeiten jedes Falls im Testsatz mit jedem Fall im Trainingssatz berechnet werden. Der Umfang der zusätzlichen Datenverarbeitung ist moderat.

Zitat: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

Sinalpha
quelle
Wofür steht "nrnn"? Ich habe Adele Cutlers (oder möglicherweise Breimans, da ich nicht sagen kann, wer was hier verfasst) Seite über RFs gelesen, und ich kann nicht finden, wo sie nrnn definieren. (Es kann sehr gut ein linearer Algebra-Begriff sein, mit dem ich nicht vertraut bin.
Tanner Strunk
nrnn = die Anzahl der nächsten Nachbarn, für die Näherungen berechnet werden sollen. Quelle: math.usu.edu/adele/RandomForests/ENAR.pdf Seite 161
klumbard
0

Beachten Sie, dass die Autoren von Elementen des statistischen Lernens angeben, dass "Näherungsdiagramme für zufällige Wälder häufig sehr ähnlich aussehen, unabhängig von den Daten, was Zweifel an ihrer Nützlichkeit aufkommen lässt. Sie haben tendenziell eine Sternform, einen Arm pro Klasse, was mehr ist ausgesprochen, je besser die Klassifizierungsleistung. " (S. 595)

Ich denke jedoch, dass diese Autoren nicht so oft erwähnen, wie zufällige Wälder mit fehlenden Daten umgehen (obwohl sie früher in diesem Buch fehlende Daten mit Bäumen erwähnen). vielleicht die Autoren einfach nicht diesen Aspekt der MDEs so viel hervorzuheben, das Gefühl , das Buch ist eine Überlegung macht enorm und hat eine Menge Informationen über eine Menge von Maschinen-Lernthemen / Techniken. Ich glaube jedoch nicht, dass die Darstellung ähnlicher Formen für RFs und Datensätze etwas Negatives über RFs im Allgemeinen bedeutet. Zum Beispiel sieht die lineare Regression grundsätzlich immer gleich aus, aber es lohnt sich zu wissen, welche Punkte nahe an der Linie liegen und welche aus Sicht der linearen Regression Ausreißer zu sein scheinen. Also ... ihr Kommentar über die Nützlichkeit von Proximity-Plots macht für mich keinen Sinn.

Tanner Strunk
quelle