Zufälliger Permutationstest zur Merkmalsauswahl

9

Ich bin verwirrt über die Permutationsanalyse für die Merkmalsauswahl in einem logistischen Regressionskontext.
Können Sie den zufälligen Permutationstest klar erläutern und erläutern, wie er für die Merkmalsauswahl gilt? Möglicherweise mit genauem Algorithmus und Beispielen.

Wie ist der Vergleich mit anderen Schrumpfungsmethoden wie Lasso oder LAR?

Ugo
quelle
5
Meinen Sie so etwas wie z. B. wo die Einträge einer einzelnen Spalte der Entwurfsmatrix permutiert werden und die Antwort und andere Kovariaten festgehalten werden? Wenn Sie eine bestimmte Referenz haben, die Sie verwenden, kann es hilfreich sein, diese aufzulisten.
Kardinal
Ich denke, dieser Link citeseerx.ist.psu.edu/viewdoc/… bezieht sich auf die richtige Technik. Ich versuche gerade, mich wieder mit dem Dozenten in Verbindung zu setzen, der mir von dieser Methode erzählt hat ...
Ugo
Ugo
2
Ihre Frage enthält unklare Punkte, die Sie möglicherweise klären möchten. In dem verlinkten Artikel gibt es eine ziemlich klare Beschreibung des Algorithmus. Möchten Sie etwas Spezielles zu diesem Algorithmus fragen? Ist es die Idee, eine Merkmalsauswahl durchzuführen, indem marginale Werte berechnet werden , für die Sie eine Erklärung wünschen? Darüber hinaus sollten Sie Definition 2 im Papier in Frage stellen . Es ist eine nicht unterstützte Behauptung, die eine funktionierende Annahme sein kann, aber kleine marginale Werte implizieren im Allgemeinen keine Relevanz. LAR führt übrigens eine lineare Regression durch und ist nicht wirklich für binäre Antworten geeignet. pp
NRH

Antworten:

10

(Ich habe jetzt nicht viel Zeit, also werde ich kurz antworten und später erweitern)

Angenommen, wir betrachten ein binäres Klassifizierungsproblem und haben einen Trainingssatz von Stichproben der Klasse 1 und Stichproben der Klasse 2. Ein Permutationstest zur Merkmalsauswahl betrachtet jedes Merkmal einzeln. Eine Teststatistik , wie Informationsgewinn oder die normalisierte Differenz zwischen den Mitteln, wird für das Merkmal berechnet. Die Daten für das Merkmal werden dann zufällig permutiert und in zwei Sätze aufgeteilt, einen der Größe und einen der Größe . Die Teststatistik wird dann basierend auf dieser neuen Partition berechnetmnθmnθpp. Abhängig von der rechnerischen Komplexität des Problems wird dies dann über alle möglichen Partitionen des Merkmals in zwei Sätze der Ordnung und oder eine zufällige Teilmenge davon wiederholt .mn

wir eine Verteilung über , berechnen wir den p-Wert, den die beobachtete Teststatistik aus einer zufälligen Partition des Merkmals erhalten hat. Die Nullhypothese lautet, dass Stichproben aus jeder Klasse aus derselben zugrunde liegenden Verteilung stammen (das Merkmal ist irrelevant).θpθ

Dieser Vorgang wird für alle Features wiederholt, und dann kann die Teilmenge der für die Klassifizierung verwendeten Features auf zwei Arten ausgewählt werden:

  • Das weist die niedrigsten p-Werte aufN
  • Alle Funktionen mit einem p-Wert<ϵ
Benhamner
quelle