Was halten Sie von der Anwendung maschineller Lerntechniken wie Random Forests oder bestrafter Regression (mit L1- oder L2-Strafe oder einer Kombination davon) in klinischen Studien mit kleinen Stichproben, wenn das Ziel darin besteht, interessante Prädiktoren in einem Klassifizierungskontext zu isolieren? Es ist keine Frage der Modellauswahl, und ich frage auch nicht, wie optimale Schätzungen der variablen Wirkung / Wichtigkeit zu finden sind. Ich habe nicht vor, starke Schlussfolgerungen zu ziehen, sondern nur multivariate Modelle zu verwenden, um zu vermeiden, dass jeder Prädiktor einzeln mit dem Ergebnis von Interesse verglichen und die Wechselbeziehungen berücksichtigt werden.
Ich habe mich nur gefragt, ob ein solcher Ansatz in diesem speziellen Extremfall bereits angewendet wurde, sagen wir 20 bis 30 Probanden mit Daten zu 10 bis 15 kategorialen oder kontinuierlichen Variablen. Es ist nicht gerade die Fall und ich denke , das hier Problem der Anzahl der Klassen in Beziehung steht es zu erklären versuchen, (die oft nicht gut ausgewogen) und die (sehr) kleine n. Mir ist die umfangreiche Literatur zu diesem Thema im Kontext der Bioinformatik bekannt, aber ich habe keinen Hinweis auf biomedizinische Studien mit psychometrisch gemessenen Phänotypen gefunden (z. B. in neuropsychologischen Fragebögen).
Irgendwelche Hinweise oder Hinweise auf relevante Papiere?
Aktualisieren
Ich bin offen für andere Lösungen zur Analyse dieser Art von Daten, z. B. C4.5-Algorithmus oder dessen Derivate, Assoziationsregelmethoden und Data-Mining-Techniken für überwachte oder halbüberwachte Klassifizierung.
Antworten:
Ich habe dies nicht außerhalb der Bioinformatik / des maschinellen Lernens gesehen, aber vielleicht können Sie der erste sein :)
Als gutes Beispiel für eine Methode mit kleinen Stichproben aus der Bioinformatik kann eine logistische Regression mit L1-Regularisierung eine gute Anpassung ergeben, wenn die Anzahl der Parameter exponentiell zur Anzahl der Beobachtungen ist. Nicht-asymptotische Konfidenzintervalle können unter Verwendung von Ungleichungen vom Chernoff-Typ erstellt werden (dh Dudik (2004) zum Beispiel. Trevor Hastie hat einige Arbeiten mit diesen Methoden durchgeführt, um Geninteraktionen zu identifizieren. In der folgenden Arbeit verwendet er es, um signifikante Effekte aus einem Modell mit 310.637 einstellbaren Parametern zu identifizieren, die zu einer Stichprobe von 2200 Beobachtungen passen
"Genomweite Assoziationsanalyse durch Lasso bestrafte die logistische Regression." Autoren: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatics Vol: 25 Issue: 6 ISSN: 1367-4803 Date: 03/2009 Pages: 714 - 721
Verwandte Präsentation von Victoria Stodden ( Modellauswahl mit viel mehr Variablen als Beobachtungen )
quelle
Ich hätte sehr wenig Vertrauen in die Verallgemeinerbarkeit der Ergebnisse einer explorativen Analyse mit 15 Prädiktoren und einer Stichprobengröße von 20.
Unter solchen Umständen würde ich generell raten, Analysen auf bivariate Beziehungen zu beschränken. Wenn Sie eine bayesianische Perspektive einnehmen, dann würde ich sagen, dass Ihre vorherigen Erwartungen genauso wichtig sind, wenn nicht wichtiger als die Daten.
quelle
Eine gängige Faustregel ist, dass mindestens die 10-fache Anzahl von Trainingsdateninstanzen vorhanden ist (ganz zu schweigen von Test- / Validierungsdaten usw.), da der Klassifikator einstellbare Parameter enthält. Denken Sie daran, dass Sie ein Problem haben, bei dem Sie nicht nur ausreichende Daten, sondern auch repräsentative Daten benötigen . Letztendlich gibt es keine systematische Regel, weil es bei dieser Entscheidung so viele Variablen gibt. Wie Hastie, Tibshirani und Friedman in den Elementen des statistischen Lernens sagen (siehe Kapitel 7):
Wenn Sie sich in diesem Bereich noch nicht auskennen, empfehle ich Ihnen, dieses kurze Papier zur "Mustererkennung" aus der Encyclopedia of Biomedical Engineering zu lesen, das eine kurze Zusammenfassung einiger Datenprobleme enthält.
quelle
Ich kann Ihnen versichern, dass RF in diesem Fall funktionieren würde und sein Wichtigkeitsmaß ziemlich aufschlussreich wäre (da es keinen großen Schwanz irreführender unwichtiger Attribute wie in standard (n << p) s geben wird). Ich kann mich jetzt an kein Papier erinnern, das sich mit einem ähnlichen Problem befasst, aber ich werde danach suchen.
quelle
Wenn Sie diskrete Eingaben haben, schreibe ich ein Programm, um fehlende Werte einer Binäreingabe unter Berücksichtigung vorheriger Eingaben vorherzusagen. Beliebige Kategorien, z. B. "1 von 6", können in Binärbits konvertiert werden und funktionieren einwandfrei. es wird es nicht bewirken.
Der Zweck des Algorithmus, den ich schreibe, ist es, so schnell wie möglich mathematisch zu lernen. Folglich hat es eine sehr schlechte zeitliche und räumliche Komplexität (räumliche Komplexität um O (4 ^ N)!).
Dafür erhalten Sie jedoch im Wesentlichen ein einmaliges Lernen für jedes System, dessen Zustand als Bitvektor ausgedrückt werden kann. Zum Beispiel hat ein Volladdierer 8 verschiedene Eingangszustände. Der Algorithmus lernt nach nur 8 verschiedenen Trainingsmustern einen Volladdierer perfekt. Nicht nur das, sondern Sie können ihm auch die Antwort geben und die Frage vorhersagen lassen oder ihm einen Teil der Antwort und einen Teil der Frage geben und den Rest ausfüllen lassen.
Wenn die Eingabedaten viele Bits enthalten, ist dies recht rechen- und speicherintensiv. Aber wenn Sie nur sehr wenige Beispiele haben - oder das Designziel lautet -, erhalten Sie nahezu die bestmöglichen Vorhersagen.
Sie trainieren es einfach mit Bitvektoren, einschließlich eines Bitvektors, dessen Bits unbekannt sind. Um eine Vorhersage zu erhalten, geben Sie ebenfalls nur einen Bitvektor ein, welche Bits unbekannt sind und welche Bits vorhergesagt werden sollen.
Der Quellcode ist hier verfügbar: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/
quelle