Ich bin verwirrt über die Permutationsanalyse für die Merkmalsauswahl in einem logistischen Regressionskontext.
Können Sie den zufälligen Permutationstest klar erläutern und erläutern, wie er für die Merkmalsauswahl gilt? Möglicherweise mit genauem Algorithmus und Beispielen.
Wie ist der Vergleich mit anderen Schrumpfungsmethoden wie Lasso oder LAR?
Antworten:
(Ich habe jetzt nicht viel Zeit, also werde ich kurz antworten und später erweitern)
Angenommen, wir betrachten ein binäres Klassifizierungsproblem und haben einen Trainingssatz von Stichproben der Klasse 1 und Stichproben der Klasse 2. Ein Permutationstest zur Merkmalsauswahl betrachtet jedes Merkmal einzeln. Eine Teststatistik , wie Informationsgewinn oder die normalisierte Differenz zwischen den Mitteln, wird für das Merkmal berechnet. Die Daten für das Merkmal werden dann zufällig permutiert und in zwei Sätze aufgeteilt, einen der Größe und einen der Größe . Die Teststatistik wird dann basierend auf dieser neuen Partition berechnetm n θ m n θp p . Abhängig von der rechnerischen Komplexität des Problems wird dies dann über alle möglichen Partitionen des Merkmals in zwei Sätze der Ordnung und oder eine zufällige Teilmenge davon wiederholt .m n
wir eine Verteilung über , berechnen wir den p-Wert, den die beobachtete Teststatistik aus einer zufälligen Partition des Merkmals erhalten hat. Die Nullhypothese lautet, dass Stichproben aus jeder Klasse aus derselben zugrunde liegenden Verteilung stammen (das Merkmal ist irrelevant).θp θ
Dieser Vorgang wird für alle Features wiederholt, und dann kann die Teilmenge der für die Klassifizierung verwendeten Features auf zwei Arten ausgewählt werden:
quelle