Ich frage mich, ob es einen Algorithmus gibt, der gleichzeitig Klassifizierung und Regression durchführen kann. Zum Beispiel möchte ich, dass der Algorithmus einen Klassifikator lernt und gleichzeitig in jedem Etikett ein kontinuierliches Ziel lernt. Daher hat es für jedes Trainingsbeispiel eine kategoriale Bezeichnung und einen kontinuierlichen Wert.
Ich könnte zuerst einen Klassifikator und dann einen Regressor in jedem Etikett trainieren, aber ich denke nur, dass es wunderbar wäre, wenn es einen Algorithmus gibt, der beides kann.
Antworten:
Das Problem, das Sie beschreiben, kann durch latente Klassenregression oder clusterweise Regression oder durch eine Erweiterungsmischung von verallgemeinerten linearen Modellen gelöst werden , die alle Mitglieder einer größeren Familie von Modellen mit endlicher Mischung oder latenten Klassenmodellen sind .
Es handelt sich nicht um eine Kombination aus Klassifizierung (überwachtes Lernen) und Regression an sich , sondern um Clusterbildung (unbeaufsichtigtes Lernen) und Regression. Der grundlegende Ansatz kann erweitert werden, sodass Sie die Klassenzugehörigkeit mithilfe von Begleitvariablen vorhersagen können, wodurch Sie noch näher an das herangehen, wonach Sie suchen. Tatsächlich wurde von Vermunt und Magidson (2003) die Verwendung latenter Klassenmodelle für die Klassifizierung beschrieben, die sie für eine solche Zweckbestimmung empfehlen.
Latente Klassenregression
Dieser Ansatz ist im Grunde genommen ein endliches Mischungsmodell (oder eine latente Klassenanalyse ) in Form
wobei eine Vektor aller Parameter und ist f k sind Mischungskomponenten durch parametrisiert θ k , und jede Komponente wird mit latent Anteilen π k . Die Idee ist also, dass die Verteilung Ihrer Daten eine Mischung aus K Komponenten ist, die jeweils durch ein mit der Wahrscheinlichkeit π k auftretendes Regressionsmodell f k beschrieben werden können . Modelle mit endlicher Mischung sind sehr flexibel bei der Wahl von f kψ = ( π , ϑ ) fk ϑk πk K fk πk fk Komponenten und können auf andere Formen und Gemische verschiedener Klassen von Modellen (z. B. Gemische von Faktoranalysatoren) erweitert werden.
Vorhersage der Wahrscheinlichkeit von Klassenmitgliedschaften auf der Grundlage von Begleitvariablen
Das einfache Modell der latenten Klassenregression kann auf begleitende Variablen erweitert werden, die die Klassenzugehörigkeit vorhersagen (Dayton und Macready, 1998; siehe auch: Linzer und Lewis, 2011; Grun und Leisch, 2008; McCutcheon, 1987; Hagenaars und McCutcheon, 2009). In diesem Fall wird das Modell
Vor-und Nachteile
Das Schöne daran ist, dass es sich um eine modellbasierte Clustering- Technik handelt. Das bedeutet, dass Sie Modelle an Ihre Daten anpassen. Solche Modelle können mit verschiedenen Methoden für den Modellvergleich verglichen werden (Wahrscheinlichkeits-Verhältnis-Tests, BIC, AIC usw.). ), daher ist die Wahl des endgültigen Modells nicht so subjektiv wie bei der Clusteranalyse im Allgemeinen. Wenn Sie das Problem in zwei unabhängige Probleme aufteilen und dann die Regression anwenden, kann dies zu verzerrten Ergebnissen führen. Wenn Sie alles in einem einzigen Modell abschätzen, können Sie Ihre Daten effizienter nutzen.
Der Nachteil ist, dass Sie eine Reihe von Annahmen über Ihr Modell treffen und darüber nachdenken müssen. Es handelt sich also nicht um eine Black-Box-Methode, die einfach die Daten aufnimmt und ein Ergebnis zurückgibt, ohne Sie zu stören. Bei verrauschten Daten und komplizierten Modellen können auch Probleme mit der Modellidentifizierbarkeit auftreten. Da solche Modelle nicht so beliebt sind, gibt es auch keine weit verbreiteten Implementierungen (Sie können großartige R-Pakete prüfen
flexmix
undpoLCA
, soweit ich weiß, auch in SAS und Mplus in gewissem Umfang), was Sie softwareabhängig macht.Beispiel
Unten sehen Sie ein Beispiel eines solchen Modells aus der
flexmix
Bibliothek (Leisch, 2004; Grun und Leisch, 2008).Es wird in den folgenden Darstellungen dargestellt (Punktformen sind die wahren Klassen, Farben sind die Klassifikationen).
Referenzen und zusätzliche Ressourcen
Weitere Informationen finden Sie in folgenden Büchern und Papieren:
quelle