Hier frage ich, was andere üblicherweise tun, um den Chi-Quadrat-Test für die Merkmalsauswahl für das Ergebnis beim überwachten Lernen zu verwenden. Wenn ich das richtig verstehe, testen sie die Unabhängigkeit zwischen jedem Merkmal und dem Ergebnis und vergleichen die p-Werte zwischen den Tests für jedes Merkmal?
In http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Der Pearson-Chi-Quadrat-Test ist ein statistischer Test, der auf Sätze kategorialer Daten angewendet wird, um zu bewerten, wie wahrscheinlich es ist, dass ein beobachteter Unterschied zwischen den Sätzen zufällig aufgetreten ist.
...
Bei einem Unabhängigkeitstest wird bewertet, ob gepaarte Beobachtungen zu zwei Variablen, die in einer Kontingenztabelle ausgedrückt werden, unabhängig voneinander sind (z. B. Umfrageantworten von Personen unterschiedlicher Nationalität, um festzustellen, ob die Nationalität mit der Antwort zusammenhängt).
Müssen die beiden Variablen, deren Unabhängigkeit durch den Test geprüft wird, kategorisch oder diskret sein (außer kategorisch geordnet), aber nicht zusammenhängend?
Von http://scikit-learn.org/stable/modules/feature_selection.html , sie
Im Iris-Datensatz sind alle Merkmale numerisch und fortlaufend bewertet, und das Ergebnis sind Klassenbezeichnungen (kategorial). Wie wird der Chi-Quadrat-Unabhängigkeitstest auf kontinuierliche Merkmale angewendet?
Um den Chi-Quadrat-Unabhängigkeitstest auf den Datensatz anzuwenden, konvertieren wir zuerst die fortlaufenden Features in diskrete Features, indem wir sie gruppieren (dh zuerst die kontinuierlichen Domänen der Features in Bins diskretisieren und dann die Features durch das Auftreten der Werte der Features in den Bins ersetzen )?
Vorkommen in mehreren Behältern bilden ein multinomiales Merkmal (entweder in jedem Behälter oder nicht), sodass der Chi-Quadrat-Unabhängigkeitstest auf sie angewendet werden kann, oder?
Übrigens, können wir den Chi-Quadrat-Unabhängigkeitstest auf Merkmale und Ergebnisse jeglicher Art anwenden , richtig?
Für den Ergebnisteil können wir Merkmale nicht nur für die Klassifizierung, sondern auch für die Regression auswählen, indem wir den Chi-Quadrat-Unabhängigkeitstest durchführen und das kontinuierliche Ergebnis zusammenfassen, oder?
Die Scikit-Lernseite sagt auch
Berechnen Sie Chi-Quadrat-Statistiken zwischen jedem nicht negativen Merkmal und jeder Klasse.
Diese Bewertung kann verwendet werden, um die n_features-Merkmale mit den höchsten Werten für die Test-Chi-Quadrat-Statistik aus X auszuwählen, die nur nicht negative Merkmale wie Boolesche Werte oder Häufigkeiten (z. B. Termzahlen in der Dokumentklassifizierung) relativ zum enthalten dürfen Klassen.
Warum erfordert der Test nicht negative Funktionen?
Wenn die Merkmale keine Zeichen haben, aber kategorisch oder diskret sind, kann der Test trotzdem auf sie angewendet werden? (Siehe meinen Teil 1)
Wenn die Features negativ sind, können wir ihre Domains immer ablegen und durch ihre Vorkommen ersetzen (genau wie ich denke, um den Test auf den Iris-Datensatz anzuwenden, siehe Teil 2), oder?
Hinweis: Ich denke, Scikit Learn folgt allgemeinen Prinzipien, und darum bitte ich hier. Wenn nicht, dann ist es immer noch in Ordnung.