Ich habe einen Datensatz, der streng binär ist. Der Wertesatz jeder Variablen befindet sich in der Domäne: true, false.
Die "besondere" Eigenschaft dieses Datensatzes ist, dass eine überwältigende Mehrheit der Werte "falsch" ist.
Ich habe bereits einen Bayes'schen Netzwerk-Lernalgorithmus verwendet, um ein Netzwerk aus den Daten zu lernen. Für einen meiner Zielknoten (der wichtigste ist der Tod) ist das AUC-Ergebnis jedoch nicht sehr gut. es ist etwas besser als der Zufall. Selbst der positive prädiktive Wert (PPV), der mir im Lebenslauf vorgeschlagen wurde, war mit anderen Ansätzen in der Literatur nicht konkurrenzfähig. Beachten Sie, dass die AUC (ROC-Analyse) der typische Benchmark in diesem Bereich der klinischen Forschung ist, aber ich bin auch offen für Vorschläge, wie das Klassifizierungsmodell angemessener bewertet werden kann, wenn es andere Ideen gibt.
Also habe ich mich gefragt, welche anderen Klassifizierungsmodelle ich für diese Art von Datensatz mit dieser Eigenschaft ausprobieren kann (meistens falsche Werte).
- würde die Unterstützung von Vektormaschinen helfen? Soweit ich weiß, befasst sich SVM nur mit kontinuierlichen Variablen als Prädiktoren (obwohl es für mehrere Klassen angepasst wurde). aber meine Variablen sind alle binär.
- würde ein zufälliger Wald helfen?
- würde hier eine logistische Regression gelten? Soweit ich weiß, sind auch die Prädiktoren für die logistische Regression kontinuierlich. Gibt es eine verallgemeinerte Version für binäre Variablen als Prädiktoren?
Abgesehen von der Klassifizierungsleistung vermute ich, dass SVM und Random Forest das Bayes'sche Netzwerk sehr gut übertreffen könnten, aber das Problem verlagert sich auf die Erklärung der Beziehungen in diesen Modellen (insbesondere für Kliniker).
Antworten:
Binäre Variablen sind für SVM kein Problem. Für genau solche Daten gibt es sogar spezialisierte Kernel (Hamming-Kernel, Tanimoto / Jaccard-Kernel). Ich empfehle jedoch nicht, diese zu verwenden, wenn Sie mit den Kernel-Methoden nicht vertraut sind.
Die logistische Regression funktioniert mit binären Prädiktoren. Es ist wahrscheinlich Ihre beste Option.
Wenn Sie lineares SVM verwenden, ist es ziemlich einfach zu erklären, was los ist. Die logistische Regression ist eine bessere Option, obwohl, da die meisten clinicials wissen tatsächlich , diese Modelle (und wissen , ich meine gehört haben ).
quelle
Ich möchte mein Experiment zur Klassifizierung von etwa 0,3 Millionen Binärdaten mit einer Mehrheit falscher Werte teilen. Ich habe lineare SVM, komplexe Bäume, LDA, QDA, logistische Regression usw. verwendet. Alle diese Methoden hatten eine Effizienz von etwa 54%, was nicht gut ist. Laut meinem Professor sind die Klassifizierungsmethoden, die mir bei diesem Problem helfen könnten, Neuronale Netze, Quadratische SVM, aber ich habe diese nicht getestet. Ich hoffe das könnte helfen.
quelle