Baumbasierte Ensemble-Methoden wie Random Forest und nachfolgende Ableitungen (z. B. bedingter Wald) sollen bei sogenannten "kleinen n , großen p " -Problemen nützlich sein , um die relative variable Bedeutung zu identifizieren. Dies scheint zwar der Fall zu sein, aber meine Frage ist, wie weit diese Fähigkeit gehen kann. Kann man beispielsweise 30 Beobachtungen und 100 Variablen haben? Was ist der Bruchpunkt eines solchen Ansatzes und gibt es anständige Faustregeln? Ich würde es vorziehen und werde Antworten akzeptieren, die durch Links zu tatsächlichen Beweisen (keine Vermutungen) unter Verwendung von simulierten oder realen Datensätzen gestützt werden . Zu letzterem habe ich nicht viel gefunden ( hier und hier), daher sind Ihre Gedanken / Ratschläge / (themenbezogenen) Referenzvorschläge herzlich willkommen!
quelle