Techniken des maschinellen Lernens für Längsschnittdaten

11

Ich habe mich gefragt, ob es (unbeaufsichtigt) maschinelle Lerntechniken zur Modellierung von Längsschnittdaten gibt. Ich habe immer Modelle mit gemischten Effekten verwendet (meistens nicht linear), aber ich habe mich gefragt, ob es andere Möglichkeiten gibt (maschinelles Lernen).

Mit maschinellem Lernen meine ich zufällige Gesamtstruktur, Klassifizierung / Clustering, Entscheidungsbäume und sogar tiefes Lernen usw.

John_dydx
quelle
Können Sie bitte definieren, was Sie unter "maschinellem Lernen" verstehen? Sie können eine LME nach entsprechender Schichtung steigern. Das wäre eigentlich ziemlich neu!
usεr11852 sagt Reinstate Monic
@ usεr11852, ich habe der Frage ein bisschen mehr Erklärung hinzugefügt - hoffentlich klärt dies ein bisschen mehr.
John_dydx
Ah ... Boosten ist also nicht ML gemäß Ihrer Definition. Cool Danke für die Klarstellung, hoffentlich wird es bald etwas Aufmerksamkeit bekommen.
usεr11852 sagt Reinstate Monic
... und auch steigern.
John_dydx
3
Diese Frage erscheint ziemlich vage. "Maschinelles Lernen" ist ein weit gefasster Begriff und sogar die Kategorien "Zufälliger Wald, Klassifizierung / Clustering, Entscheidungsbäume und sogar tiefes Lernen usw." sind ziemlich breit. Gibt es eine klare Anwendung, an der Sie interessiert sind? Wenn Sie beispielsweise dichotome Ausgaben klassifizieren müssen, können Sie ein logistisches Mischeffektmodell oder ein logistisches GEE verwenden. Maschinelles Lernen und statistische Modelle beziehen sich nicht unbedingt auf verschiedene Dinge.
Jon

Antworten:

7

In dem Fall, in dem mehrere Beobachtungen von einem Probanden vorliegen (z. B. mehrere Besuche desselben Patienten), ist die "Patienten-ID" eine "Gruppierungs" -Variable. Bei der Modellbewertung muss darauf geachtet werden, dass Besuche desselben Patienten nicht sowohl in den Trainings- als auch in den Testdaten erscheinen, da diese korreliert sind und zu einer Inflation der Klassifikatorgenauigkeit führen .

Die Cross-Validation-sklearn-Dokumentation enthält Cross-Validation-Iteratoren für gruppierte Daten. Siehe GroupKFold , LeaveOneGroupOut und LeavePGroupsOut .

Versuchen Sie noch besser wiederkehrende neuronale Netze oder Hidden-Markov-Modelle .

user0
quelle
4

Sie können Ihre Längsrichtung mit Standardmethoden für maschinelles Lernen modellieren, indem Sie nur Features hinzufügen, die die Längsrichtung darstellen, z. B. indem Sie ein Feature hinzufügen, das die Zeit darstellt. Oder eine Funktion, die die Mitgliedschaft in einer Gruppe, Person usw. angibt (im Fall der Paneldaten).

Wenn Sie kreativ mit der Erstellung / Extraktion von Features sind, können Sie alles mit ML-Algorithmen modellieren.

PhilippPro
quelle
1
@PhlippePro, ich bin etwas verwirrt über diese Antwort. (1) Was ist, wenn Sie für eine Person vorhersagen möchten, die nicht in Ihrem Trainingssatz enthalten ist? Sie haben nur Koeffizienten für diejenigen in Ihrem Trainingssatz, oder? (2) Das Hinzufügen einer Funktion, die der Person entspricht, kann dazu führen, dass bis zu 100.000 neue Dummy-Variablen hinzugefügt werden, vorausgesetzt, Sie haben 100.000 Personen in Ihrem Datensatz. Diese neuen Funktionen würden genau neben die ursprünglichen passen?
Benutzer0
(1) Wenn Sie nicht die Personen haben, die Sie in Ihrem Trainingsdatensatz vorhersagen möchten, können Sie die "Personenfunktion" nicht verwenden, das ist richtig. (2) Anstatt Dummy-Features zu erstellen, können Sie ein "kategoriales" Feature erstellen (z. B. geben Sie sie mit as.factor in R als kategorisch an). Einige Algorithmen können nicht so viele Kategorien verarbeiten (wie z. B. randomForest kann nur ungefähr 50 verarbeiten), dann müssen Sie sie wirklich als Dummy-Variablen angeben und Sie können (zu) viele Funktionen erhalten, wie Sie betont haben.
PhilippPro
ML lässt sich nicht so einfach in Längsschnittdaten übersetzen
Aksakal