Gibt es eine Möglichkeit, mithilfe der logistischen Regression mehrfach beschriftete Daten zu klassifizieren? Mit mehrfach beschriftet meine ich Daten, die gleichzeitig zu mehreren Kategorien gehören können.
Ich möchte diesen Ansatz verwenden, um einige biologische Daten zu klassifizieren.
classification
logistic
multilabel
user721975
quelle
quelle
Antworten:
Ich bin mir im Prinzip nicht sicher, ob diese Techniken immer noch als logistische Regression bezeichnet werden.
Tatsächlich kann sich Ihre Frage auf zwei unabhängige Erweiterungen der üblichen Klassifikatoren beziehen:
Sie können verlangen, dass die Summe aller Mitgliedschaften für jeden Fall eins ist ("geschlossene Welt" = der übliche Fall)
oder diese Einschränkung aufheben (manchmal als "Ein-Klassen-Klassifikatoren" bezeichnet).
Dies kann von mehreren unabhängigen LR-Modellen trainiert werden, obwohl es sich um eine Klasse handelt Probleme sind oft schlecht gestellt (diese Klasse gegen alle Arten von Ausnahmen, die in alle Richtungen liegen könnten) und dann ist LR nicht besonders gut geeignet.
partielle Klassenmitgliedschaft: Jeder Fall gehört , mit der Mitgliedschaft für jede Klasse, in Fuzzy - Clusteranalyse auf ähnliche Mitgliedschaften: es sei angenommen , sind 3 - Klassen A, B, C. Dann kann eine Probe als Zugehörigkeit zur Klasse B bezeichnet werden. Dies kann auch als Zugehörigkeitsvektor [ A = 0 , B = 1 , C = 0 ] geschrieben werden . In dieser Notation wären die Teilmitgliedschaften zB [ A = 0,05 , B =∈ [ 0 , 1 ]nc l a s s e s
[ A = 0 , B = 1 , C.= 0 ] usw.[ A = 0,05 , B = 0,95 , C.= 0 ]
Je nach Problem können unterschiedliche Interpretationen gelten (Fuzzy-Mitgliedschaften oder Wahrscheinlichkeiten):
zur Vorhersage sind zB die posterioren Wahrscheinlichkeiten nicht nur möglich, sondern tatsächlich ziemlich häufig
und sogar Validierung
Die ganze Idee dabei ist, dass es für Grenzfälle möglicherweise nicht möglich ist, sie eindeutig einer Klasse zuzuordnen.
In R zB,
nnet:::multinom
das Teil von MASS ist, werden solche Daten für das Training akzeptiert. Hinter den Kulissen wird ein ANN mit logistischem Sigmoid und ohne versteckte Schicht verwendet.Ich habe ein Paket
softclassval
für den Validierungsteil entwickelt.Ein-Klassen-Klassifikatoren werden in Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009, ausführlich erläutert .
Wir geben eine detailliertere Diskussion der Teilmitgliedschaften in diesem Artikel: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B. Sobottka, Gabriele Schackert und Reiner Salzer: Raman-spektroskopische Einstufung von Astrozytomgeweben: Verwendung weicher Referenzinformationen. Anal Bioanal Chem., 2011. 400 (9), S. 2801-2816
quelle
Eine einfache Möglichkeit, eine Mehrfachetikettenklassifizierung mit einem Mehrklassenklassifizierer (z. B. eine multinomiale logistische Regression) durchzuführen, besteht darin, jede mögliche Zuordnung von Etiketten einer eigenen Klasse zuzuweisen. Wenn Sie beispielsweise eine binäre Klassifizierung mit mehreren Labels durchführen und 3 Labels haben, können Sie diese zuweisen
Wenn Sie darüber hinausgehen und von anderen vorgeschlagen wurden, sollten Sie sich wahrscheinlich strukturierte Vorhersagealgorithmen wie bedingte Zufallsfelder ansehen.
quelle
Dieses Problem hängt auch mit dem kostensensitiven Lernen zusammen, bei dem die Vorhersage eines Etiketts für eine Probe Kosten verursachen kann. Bei Mustern mit mehreren Etiketten sind die Kosten für diese Etiketten niedrig, während die Kosten für andere Etiketten höher sind.
Sie können sich dieses Tutorial ansehen, das Sie auch hier finden .
quelle