Hochdimensionale, korrelierte Daten und Top-Merkmale / Kovariaten entdeckt; Testen mehrerer Hypothesen?

Ich habe einen Datensatz mit ungefähr 5.000 häufig korrelierten Merkmalen / Kovariaten und einer binären Antwort. Die Daten wurden mir gegeben, ich habe sie nicht gesammelt. Ich benutze Lasso und Gradientenverstärkung, um Modelle zu bauen. Ich verwende iterierte, verschachtelte Kreuzvalidierung. Ich berichte über Lassos größte (absolute) 40 Koeffizienten und die 40 wichtigsten Merkmale der Bäume mit Gradientenverstärkung (40 hatte nichts Besonderes; es schien nur eine vernünftige Menge an Informationen zu sein). Ich berichte auch über die Varianz dieser Größen über die Falten und Iterationen des Lebenslaufs.

Ich denke über die "wichtigen" Merkmale nach und mache keine Aussagen über p-Werte oder Kausalität oder irgendetwas, sondern betrachte diesen Prozess als eine Art - wenn auch unvollkommenen und zufälligen - Einblick in ein Phänomen.

Angenommen, ich habe dies alles richtig gemacht (z. B. Kreuzvalidierung korrekt ausgeführt, skaliert für Lasso), ist dieser Ansatz sinnvoll? Gibt es Probleme beispielsweise mit dem Testen mehrerer Hypothesen, der Post-hoc-Analyse oder der falschen Entdeckung? Oder andere Probleme?

Zielsetzung

Prognostizieren Sie die Wahrscheinlichkeit eines unerwünschten Ereignisses

Schätzen Sie in erster Linie die Wahrscheinlichkeit genau
Geringfügiger - zur Überprüfung der geistigen Gesundheit, aber auch, um möglicherweise einige neuartige Prädiktoren aufzudecken, die weiter untersucht werden könnten, überprüfen Sie die oben genannten Koeffizienten und Wichtigkeiten.

Verbraucher

Forscher, die daran interessiert sind, dieses Ereignis vorherzusagen, und die Personen, die das Ereignis beheben müssen, wenn es auftritt

Was ich möchte, dass sie da rauskommen

Geben Sie ihnen die Möglichkeit, das Ereignis vorherzusagen, wenn sie den beschriebenen Modellierungsprozess mit ihren eigenen Daten wiederholen möchten.
Wirf etwas Licht auf unerwartete Prädiktoren. Zum Beispiel könnte sich herausstellen, dass etwas völlig Unerwartetes der beste Prädiktor ist. Modellierer anderswo könnten diesen Prädiktor daher ernsthafter berücksichtigen.

machine-learning multiple-comparisons regression-coefficients lasso high-dimensional user0
quelle

Es wäre nützlich zu wissen, was die Absicht hier ist. Du hast diese Dinge getan, warum? Wer ist der Verbraucher und was sollen sie aus der Analyse herausholen?

Matthew Drury

Es gibt keine Probleme mit der Genauigkeit der Vorhersagen. Die Unsicherheit in Ihren Vorhersagen wird durch Kreuzvalidierung gut geschätzt. Möglicherweise besteht eine Einschränkung darin, dass Sie beim Testen vieler Parametereinstellungen die Genauigkeit überschätzen. Verwenden Sie daher einen Validierungssatz, um die Genauigkeit Ihres endgültigen Modells abzuschätzen. Außerdem sollten Ihre Daten repräsentativ für die Daten sein, für die Sie Vorhersagen treffen werden.

Es ist Ihnen klar, und es sollte dem Leser klar sein, dass Ihre Prädiktoren keine Ursachen für den Effekt sind, sondern nur Prädiktoren, die eine gute Vorhersage treffen und empirisch gut funktionieren. Obwohl ich Ihrer Vorsicht voll und ganz zustimme, ist es in jedem Fall problematisch, aus Beobachtungsdaten auf eine Ursache zu schließen. Dinge wie Bedeutung und dergleichen sind "gültige" Konzepte in gut konzipierten, kontrollierten Studien, und darüber hinaus sind sie lediglich Werkzeuge, die Sie und andere mit Bedacht und Vorsicht interpretieren sollten. In einer normalen linearen Regression mit angegebenen Konfidenzintervallen sowie in einem Lasso-Modell und in einem gradientenverstärkten Baummodell können häufige Ursachen, Störeffekte, Maskierungen und andere Dinge auftreten.

Gijs
quelle

Hochdimensionale, korrelierte Daten und Top-Merkmale / Kovariaten entdeckt; Testen mehrerer Hypothesen?

Antworten: