Angenommen, wir haben eine Stichprobe aus zwei Populationen: A
und B
. Nehmen wir an, diese Populationen bestehen aus Individuen und wir beschreiben Individuen anhand von Merkmalen. Einige dieser Funktionen sind kategorisch (z. B. fahren sie zur Arbeit?) Und andere numerisch (z. B. ihre Höhe). Nennen wir diese Funktionen: . Wir sammeln Hunderte dieser Merkmale (z. B. n = 200), nehmen wir der Einfachheit halber an, ohne Fehler oder Rauschen bei allen Personen.
Wir nehmen an, dass die beiden Populationen unterschiedlich sind. Unser Ziel ist es, die folgenden zwei Fragen zu beantworten:
- Unterscheiden sie sich tatsächlich erheblich?
- Was ist zwischen ihnen signifikant unterschiedlich?
Methoden wie Entscheidungsbäume (z. B. zufällige Wälder) und lineare Regressionsanalysen können helfen. Zum Beispiel könnte man die Bedeutung von Merkmalen in zufälligen Wäldern oder die angepassten Koeffizienten in der linearen Regression untersuchen, um zu verstehen, was diese Gruppen unterscheiden kann, und die Beziehungen zwischen Merkmalen und Populationen untersuchen.
Bevor ich diesen Weg gehe, möchte ich einen Eindruck von meinen Möglichkeiten bekommen, was gut und modern gegen schlecht ist. Bitte beachten Sie, dass mein Ziel nicht die Vorhersage an sich ist, sondern das Testen und Finden signifikanter Unterschiede zwischen den Gruppen.
Welche prinzipiellen Ansätze gibt es , um dieses Problem anzugehen?
Hier sind einige Bedenken, die ich habe:
Methoden wie die lineare Regressionsanalyse antworten möglicherweise nicht vollständig (2), oder? Zum Beispiel kann eine einzelne Anpassung helfen, einige Unterschiede zu finden, aber nicht alle signifikanten Unterschiede. Zum Beispiel kann die Multikollinearität verhindern, dass wir herausfinden, wie sich alle Merkmale zwischen den Gruppen unterscheiden (zumindest bei einer einzelnen Anpassung). Aus dem gleichen Grund würde ich erwarten, dass ANOVA auch auf (2) keine vollständige Antwort geben kann.
Es ist nicht ganz klar, wie ein prädiktiver Ansatz antworten würde (1). Welche Klassifizierungs- / Vorhersageverlustfunktion sollten wir beispielsweise minimieren? Und wie testen wir, ob sich die Gruppen signifikant unterscheiden, wenn wir einen Anfall haben? Schließlich mache ich mir Sorgen, dass die Antwort auf (1) von den von mir verwendeten Klassifizierungsmodellen abhängt.
quelle
Sie sagen nicht, wie viele Funktionen in den Daten verfügbar sind. Wenige, viele, massiv? Können wir annehmen, dass es sich um dieselben Merkmale zwischen Populationen handelt, die alle mit denselben Werkzeugen, Methoden und Modalitäten gemessen wurden? Wenn nicht, haben Sie ein größeres Problem, bei dem ein Messmodell für Fehler in Variablen möglicherweise funktioniert.
@benoitsanchez scheint Frage 1) beantwortet zu haben.
Wrt # 2), ich bin nicht sicher, ob RFs helfen können. Durch Verwendung eines formaleren Modells wie einer Einweg-ANOVA, die jeweils auf ein Merkmal angewendet wird, kann ein Test des Unterschieds zwischen Populationen für Merkmale entwickelt werden. Durch die Zusammenfassung der Ergebnisse dieser Tests, basierend auf der Größe des Tests sowie seiner Bedeutung, wird ein beschreibendes Profil möglich, wie sich die Populationen zwischen den Merkmalen unterscheiden. Dies ist zugegebenermaßen eine Ad-hoc- und heuristische Lösung, die für Ihren Geschmack, Ihre Vorlieben und Ihr Training möglicherweise nicht streng genug ist.
Da ich nicht gut in der Latex-Notation bin, möchte ich einfach beschreiben, wie diese Tests funktionieren könnten: Erstellen Sie zunächst eine Art Makroschleife, die alle Features einzeln durchläuft. Mit jedem Durchlauf der Schleife wird das neue Merkmal zum Ziel oder DV mit X, das aus einer Dummy-Variablen für die Grundgesamtheit sowie allen geeigneten Steuervariablen besteht. Stellen Sie sicher, dass für jedes Feature dieselben Steuerelemente verwendet werden und dass die zugrunde liegenden Daten für alle ANOVAs genau gleich sind, um Abweichungen zu vermeiden, die auf die Wechselwirkungen endlicher Datenproben zurückzuführen sind. Aggregieren Sie die F-Test-Werte für die Dummy-Variable für jedes Feature. Dies bietet eine standardisierte Metrik, die einen Vergleich zwischen Funktionen ermöglicht. F-Tests sind angepassten Betas vorzuziehen, da Betassind nicht standardisiert und werden in der Einheit und den Standardentwicklungen jedes einzelnen Merkmals ausgedrückt.
Ihr letzter Kommentar "Ich mache mir Sorgen, dass die Antwort auf (1) von den von mir verwendeten Klassifizierungs- / Regressionsmodellen abhängt" ist immer richtig. Die Antworten variieren sehr wahrscheinlich in Abhängigkeit von den verwendeten Modellen. Es ist auch Ausdruck eines häufig beobachteten Unwohlseins unter den stärker theoretischen und klassisch ausgebildeten Statistikern, die mit der nicht deterministischen Natur der angewandten statistischen Modellierung nicht vertraut sind oder Schwierigkeiten haben, diese anzuerkennen. Ein ausgezeichnetes Gegenmittel gegen diese Symptome ist Efrons und Hasties jüngstes Buch Computer Age Statistical Inference . Sie bringen statistische Modellierung in das 21. Jahrhundert, ein Zeitalter der Datenwissenschaft und des maschinellen Lernens, indem sie offen die iterative, approximierende, heuristische Natur aller anerkennenModelle mit einem Fehlerterm. Man muss kein Bayesianer sein, um die Wahrheit zu erkennen, die dieser Beobachtung innewohnt. Ihre Perspektive ist erfrischend und unterscheidet sich von dem starren Determinismus der klassischen statistischen Praxis des 20. Jahrhunderts, der ihre Hände in die Luft warf, wenn beispielsweise eine produktübergreifende Matrix nicht invertiert wurde und / oder eine pedantische Modellannahme nicht erfüllt wurde.
quelle