Ich habe einen Datensatz mit 5.818.446 Zeilen und 51 Spalten, von denen 50 Prädiktoren sind. Meine Antwort ist quantitativ, daher interessiere ich mich für ein Regressionsmodell. Ich versuche, mithilfe des Caret-Pakets einen zufälligen Wald an meine Daten anzupassen. Ich habe jedoch nicht genug RAM, um dies zu tun.
Ich habe nach Lösungen für mein Problem gesucht. Abgesehen davon, dass ich einen leistungsstärkeren Computer habe, kann ich anscheinend das Absacken nutzen , um mein Problem zu lösen. Daher ist meine Idee wie folgt:
Erstellen Sie sowohl Zug- als auch Testpartitionen aus meinem ursprünglichen Datensatz
Probe mit Ersatz einen kleinen Teil meines Zugdatensatzes in R (sagen wir 1% davon, dh 58.185 Zeilen)
Passen Sie eine zufällige Gesamtstruktur an diesen kleinen Teil der Daten an
Speichern Sie das Modellergebnis
Wiederholen Sie die Schritte 2 bis 4 1000 Mal
Kombinieren Sie diese 1.000 Modelle aus den Schritten 2-5
Random Forest selbst verwendet jedoch Bagging, um das Modell an die Daten anzupassen, und daher bin ich mir nicht sicher, ob mein Ansatz korrekt ist. Daher habe ich einige Fragen an Sie:
i) Ist mein Ansatz korrekt? Ich meine, da ich nicht genug RAM in meinem System habe, ist es richtig, viele verschiedene zufällige Gesamtstrukturmodelle an verschiedene Datenblöcke anzupassen und sie danach zu kombinieren?
ii) Unter der Annahme, dass mein Ansatz korrekt ist, ist 1% der Daten eine gute Faustregel für meine Stichprobengröße? Selbst mit 1% der Daten habe ich immer noch .
iii) Gibt es unter der Annahme, dass mein Ansatz korrekt ist, eine Reihe von Replikationen für Modelle, die ich verwenden sollte? Ich habe aus Gründen an 1.000 gedacht.
quelle
l1
Regularisierung, bei der die Gewichte unbedeutender Komponenten normalerweise auf nahezu Null sinken, sodass Sie durch Inspektion sehen können, welche Bäume Sie behalten sollten.Antworten:
Hier geht es nicht um Ihre spezifischen Fragen, sondern um die Motivation dahinter. Das
bigRF
Paket kann Ihr Problem lösen:Ebenfalls:
quelle