Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als eine sehr fehlerhafte Analysemethode akzeptiert (sofern nicht alle) Die Schritte sind im Vorfeld klar definiert und richtig geplant.
Die adaptive Datenanalyse gibt in der Regel an, wie viele Forscher ihre Analysen tatsächlich durchführen, was für Statistiker eine große Enttäuschung darstellt. Wenn man dies auf statistisch gültige Weise tun könnte, würde dies die statistische Praxis revolutionieren.
Der folgende Wissenschaftsartikel behauptet, eine Methode dafür gefunden zu haben (ich entschuldige mich für die Paywall, aber wenn Sie an einer Universität sind, haben Sie wahrscheinlich Zugang): Dwork et al .
Persönlich war ich immer skeptisch gegenüber Statistikartikeln, die in Science veröffentlicht wurden , und dies ist nicht anders. Tatsächlich kann ich nach zweimaligem Lesen des Artikels, einschließlich des ergänzenden Materials, (überhaupt) nicht verstehen, warum die Autoren behaupten, dass ihre Methode eine Überanpassung verhindert.
Ich verstehe, dass sie ein Holdout-Dataset haben, das sie wiederverwenden. Sie scheinen zu behaupten, durch "Fuzzing" der Ausgabe der Bestätigungsanalyse auf dem Holdout-Datensatz wird eine Überanpassung verhindert (es ist erwähnenswert, dass das Fuzzing nur Rauschen zuzufügen scheint, wenn die berechnete Statistik der Trainingsdaten ausreichend weit ist aus der berechneten Statistik zu den Holdout-Daten ). Soweit ich das beurteilen kann, gibt es keinen wirklichen Grund, der eine Überanpassung verhindern könnte.
Habe ich mich geirrt, was die Autoren vorschlagen? Gibt es einen subtilen Effekt, den ich übersehen habe? Oder hat die Wissenschaft die bisher schlechteste statistische Praxis gebilligt?
Antworten:
Es gibt einen Blogbeitrag der Autoren , der dies auf hohem Niveau beschreibt.
So zitieren Sie zu Beginn dieses Beitrags:
Ich kann nicht sehen, wie ihre Technik dieses Problem überhaupt angeht. Als Antwort auf Ihre Frage glaube ich, dass sie sich nicht mit dem Garten der Gabelpfade befassen, und in diesem Sinne wird ihre Technik die Menschen in ein falsches Sicherheitsgefühl wiegen. Nicht viel anders als zu sagen, dass "ich Kreuzvalidierung verwendet habe" lullt viele - die nicht verschachtelten Lebenslauf verwendet haben - in ein falsches Gefühl der Sicherheit.
Mir scheint, dass der Großteil der Blog-Posts auf ihre Technik hinweist, um die Teilnehmer an einem Wettbewerb im Kaggle-Stil daran zu hindern, den Gradienten des Test-Sets zu überwinden. Das ist nützlich, geht aber nicht direkt auf die Forking Paths ein. Es fühlt sich so an, als hätte es das Flair von Wolfram und Googles New Science, wo riesige Datenmengen die Kontrolle übernehmen. Diese Erzählung hat eine gemischte Bilanz und ich bin immer skeptisch gegenüber automatisierter Magie.
quelle
Ich bin mir sicher, dass ich diese differenzierte Datenschutztechnik hier zu stark vereinfache, aber die Idee ist auf hohem Niveau sinnvoll.
Wenn Sie einen Algorithmus zum Ausspucken eines guten Ergebnisses erhalten (wow, die Genauigkeit meines Testsatzes hat sich wirklich verbessert), möchten Sie nicht sofort zum Abschluss kommen. Sie möchten es nur akzeptieren, wenn die Verbesserung erheblich größer als der vorherige Algorithmus ist. Das ist der Grund für das Hinzufügen von Lärm.
BEARBEITEN: Dieser Blog enthält eine gute Erklärung und R-Codes, um die Wirksamkeit des Rauschaddierers zu demonstrieren. Http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/
quelle
Die Behauptung, dass das Hinzufügen von Lärm dazu beiträgt, eine Überanpassung zu verhindern, hält hier wirklich Wasser, da das, was sie tatsächlich tun , die Wiederverwendung des Holdouts einschränkt . Ihre Methode bewirkt zwei Dinge: Sie begrenzt die Anzahl der Fragen, die dem Holdout gestellt werden können, und wie viel von jeder der Antworten über die Holdout-Daten verrät.
Das Herzstück ihrer Methode ist eine Beziehung zwischen algorithmischer Stabilität und Überanpassung, die bis in die späten 1970er Jahre zurückreicht (Devroye und Wagner 1978). Grob gesagt
Mittlerweile gibt es eine ganze Reihe von Artikeln, in denen analysiert wird, wie unterschiedliche Verfahren zur Lärmaddition die Überanpassung steuern. Ein relativ lesbares ist das von Russo und Zou ( https://arxiv.org/abs/1511.05219 ). Einige neuere Follow-up-Arbeiten zu den ersten Arbeiten von Dwork et al. könnte auch hilfreich sein, um zu sehen. (Haftungsausschluss: Ich habe zwei Artikel zu diesem Thema, von denen der jüngste eine Verbindung zum Testen adaptiver Hypothesen erklärt: https://arxiv.org/abs/1604.03924 .)
Hoffe, dass alles hilft.
quelle
Ich widerspreche Ihrem zweiten Satz. Die Vorstellung, dass der vollständige Plan für die Datenanalyse im Voraus festgelegt werden sollte, ist nicht gerechtfertigt, selbst wenn Sie versuchen, eine bereits bestehende wissenschaftliche Hypothese zu bestätigen. Im Gegenteil, jede anständige Datenanalyse erfordert ein gewisses Maß an Aufmerksamkeit für die tatsächlich erfassten Daten. Die Forscher, die an etwas anderes glauben, sind im Allgemeinen Forscher, die glauben, dass Signifikanztests der Anfang und das Ende der Datenanalyse sind, wobei deskriptive Statistiken, Diagramme, Schätzungen, Vorhersagen, Modellauswahl usw. kaum eine Rolle spielen seine analytischen Pläne im Voraus festlegen, ist sinnvoller, weil die herkömmlichen Methoden, mit denen p-Werte werden berechnet, wenn die Stichprobengröße und die durchzuführenden Tests festgelegt werden, bevor Daten angezeigt werden. Diese Anforderung erschwert den Analysten und ist daher einer der vielen guten Gründe, keine Signifikanztests zu verwenden.
Möglicherweise haben Sie Einwände dagegen, dass der Analyst nach Anzeige der Daten eine Überanpassung zulässt. Dies ist der Fall, aber ein guter Analyst wird alle von ihm durchgeführten Analysen anzeigen, explizit angeben, welche Informationen in den Daten für analytische Entscheidungen verwendet wurden, und Methoden wie die Kreuzvalidierung angemessen anwenden. Zum Beispiel ist es im Allgemeinen in Ordnung, Variablen basierend auf der erhaltenen Werteverteilung neu zu codieren. Wenn Sie jedoch für einige Analysen die 3 Prädiktoren von 100 auswählen, die die engste beobachtete Assoziation zu der abhängigen Variablen aufweisen, bedeutet dies, dass die Assoziationsschätzungen positiv sein werden voreingenommen, durch das Prinzip der Regression zum Mittelwert. Wenn Sie die Variablenauswahl in einem prädiktiven Kontext durchführen möchten, müssen Sie Variablen in Ihren Kreuzvalidierungsfalten auswählen oder nur die Trainingsdaten verwenden.
quelle