Ich mag G van Belles Buch über statistische Faustregeln und in geringerem Maße allgemeine Fehler in der Statistik (und wie man sie vermeidet) von Phillip I Good und James W. Hardin. Sie adressieren häufige Fallstricke bei der Interpretation von Ergebnissen aus experimentellen Studien und Beobachtungsstudien und geben praktische Empfehlungen für statistische Schlussfolgerungen oder explorative Datenanalysen. Ich bin jedoch der Meinung, dass "moderne" Leitlinien etwas fehlen, insbesondere angesichts des zunehmenden Einsatzes von rechnergestützten und robusten Statistiken in verschiedenen Bereichen oder der Einführung von Techniken aus der Community des maschinellen Lernens, z. B. in der klinischen Biostatistik oder der genetischen Epidemiologie.
Abgesehen von Rechentricks oder häufigen Fallstricken bei der Datenvisualisierung, die an anderer Stelle behoben werden könnten, möchte ich fragen: Welche Faustregeln würden Sie für eine effiziente Datenanalyse empfehlen? ( eine Regel pro Antwort, bitte ).
Ich denke an Richtlinien, die Sie einem Kollegen, einem Forscher ohne fundierten Hintergrund in der statistischen Modellierung oder einem Studenten im Mittel- bis Fortgeschrittenenkurs geben könnten. Dies kann verschiedene Phasen der Datenanalyse betreffen, z. B. Stichprobenstrategien, Merkmalsauswahl oder Modellbildung, Modellvergleich, Nachschätzung usw.
Halten Sie Ihre Analyse reproduzierbar. Ein Gutachter, Ihr Chef oder eine andere Person werden Sie eventuell fragen, wie genau Sie zu Ihrem Ergebnis gekommen sind - wahrscheinlich sechs Monate oder länger, nachdem Sie die Analyse durchgeführt haben. Sie werden sich nicht erinnern, wie Sie die Daten bereinigt haben, welche Analyse Sie durchgeführt haben, warum Sie das von Ihnen verwendete Modell ausgewählt haben ... Und all dies zu rekonstruieren ist ein Schmerz.
Fazit: Verwenden Sie eine Skriptsprache, fügen Sie Kommentare in Ihre Analyseskripte ein und behalten Sie sie bei. Was Sie verwenden (R, SAS, Stata, was auch immer), ist weniger wichtig als ein vollständig reproduzierbares Skript. Lehnen Sie Umgebungen ab, in denen dies unmöglich oder umständlich ist.
quelle
Es gibt kein freies Mittagessen
Ein großer Teil der statistischen Fehler wird durch Klicken auf eine große glänzende Schaltfläche namens "Signifikanz berechnen" erzeugt, ohne die Last der versteckten Annahmen zu berücksichtigen.
Wiederholen
Selbst wenn ein einzelner Anruf an einen Zufallsgenerator beteiligt ist, kann man Glück oder Pech haben und so zu den falschen Schlussfolgerungen springen.
quelle
Eine Regel pro Antwort ;-)
Sprechen Sie mit dem Statistiker, bevor Sie die Studie durchführen. Wenn möglich, bevor Sie den Zuschuss beantragen. Helfen Sie ihm, das Problem zu verstehen, das Sie gerade untersuchen, und geben Sie ihm Anregungen für die Analyse der zu sammelnden Daten. Überlegen Sie sich, was dies für Ihr Studiendesign und Ihre Datenanforderungen bedeutet. Vielleicht schlägt der Statistiker / die Statistikerin vor, ein hierarchisches Modell zu erstellen, um zu berücksichtigen, wer die Patienten diagnostiziert hat - dann müssen Sie nachverfolgen, wer wen diagnostiziert hat. Klingt trivial, aber es ist weitaus besser, darüber nachzudenken, bevor Sie Daten erfassen (und etwas Entscheidendes nicht erfassen), als danach.
Hinweis: Führen Sie vor dem Start eine Leistungsanalyse durch. Nichts ist so frustrierend wie das Fehlen eines Budgets für eine ausreichend große Stichprobe. Denken Sie beim Überlegen, welche Effektgröße Sie erwarten, an die Publikationsverzerrung - die Effektgröße, die Sie finden werden, wird wahrscheinlich kleiner sein, als Sie es in der (voreingenommenen) Literatur erwartet haben.
quelle
Eine Sache, die ich meinen Schülern sage, ist, für jeden p-Wert ein geeignetes Diagramm zu erstellen. zB ein Streudiagramm, wenn sie die Korrelation testen, nebeneinanderliegende Boxplots, wenn sie eine Einweg-ANOVA durchführen, usw.
quelle
Wenn Sie sich für zwei Methoden zur Analyse Ihrer Daten entscheiden, versuchen Sie es auf beide Arten und prüfen Sie, ob dies einen Unterschied macht.
Dies ist in vielen Zusammenhängen nützlich:
Dies sollte nicht dazu führen, dass man sich mit dem Thema auseinandersetzt, aber es vermittelt zumindest einen Eindruck davon, inwieweit substanzielle Erkenntnisse für die Auswahl robust sind.
quelle
Stellen Sie Ihre Daten in Frage. In der modernen Ära billigen Arbeitsspeichers arbeiten wir häufig mit großen Datenmengen. Ein "Fettfinger" -Fehler oder eine "verlorene Dezimalstelle" kann eine Analyse leicht dominieren. Ohne eine grundlegende Überprüfung der Integrität (oder das Zeichnen der Daten, wie von anderen hier vorgeschlagen) kann viel Zeit verschwendet werden. Dies schlägt auch die Verwendung einiger grundlegender Techniken für die Robustheit gegenüber Ausreißern vor.
quelle
Verwenden Sie eine Software, die die Kette der Programmierlogik von den Rohdaten bis zu den endgültigen Analysen / Ergebnissen zeigt. Vermeiden Sie Software wie Excel, bei der ein Benutzer in einer Zelle einen nicht nachweisbaren Fehler machen kann, der nur durch manuelle Überprüfung erkannt wird.
quelle
Fragen Sie sich immer: "Was bedeuten diese Ergebnisse und wie werden sie verwendet?"
In der Regel dient die Verwendung von Statistiken dazu, Entscheidungen unter Unsicherheit zu treffen. Deshalb ist es wichtig, im Kopf zu haben: "Welche Entscheidungen werden als Ergebnis dieser Analyse getroffen und wie wird diese Analyse diese Entscheidungen beeinflussen?" (z. B. einen Artikel veröffentlichen, die Verwendung einer neuen Methode empfehlen, Y eine Finanzierung in Höhe von X USD gewähren, weitere Daten abrufen, eine geschätzte Menge als E angeben usw. usw. usw.)
Wenn Sie das Gefühl haben, dass keine Entscheidung getroffen werden muss, fragt man sich, warum Sie die Analyse überhaupt erst durchführen (da die Analyse ziemlich teuer ist). Ich betrachte Statistik als ein "Ärgernis", da sie eher ein Mittel zum Zweck als zum Zweck selbst ist. Meines Erachtens quantifizieren wir nur die Unsicherheit, damit wir Entscheidungen treffen können, die diese Unsicherheit präzise erklären.
Ich denke, dies ist ein Grund, warum es im Allgemeinen eine gute Strategie ist, die Dinge einfach zu halten, da es in der Regel viel einfacher ist, eine einfache Lösung mit der realen Welt (und damit dem Umfeld, in dem die Entscheidung getroffen wird) in Beziehung zu setzen, als die komplexe Lösung . In der Regel ist es auch einfacher, die Grenzen der einfachen Antwort zu verstehen. Sie wechseln dann zu den komplexeren Lösungen, wenn Sie die Grenzen der einfachen Lösung kennen und wissen, wie die komplexe Lösung diese angeht.
quelle
Es kann eine lange Liste geben, um nur einige zu nennen: (in keiner bestimmten Reihenfolge)
P-Wert ist NICHT Wahrscheinlichkeit. Insbesondere ist es nicht die Wahrscheinlichkeit, einen Fehler vom Typ I zu begehen. Ebenso haben CIs keine wahrscheinlichkeitstheoretische Interpretation für die angegebenen Daten. Sie sind für wiederholte Versuche anwendbar.
Das Problem der Varianz dominiert die meiste Zeit in der Praxis, daher ist eine voreingenommene Schätzung mit geringer Varianz besser als eine unvoreingenommene Schätzung mit großer Varianz (die meiste Zeit).
Die Modellanpassung ist ein iterativer Prozess. Bevor Sie die Daten analysieren, müssen Sie die Datenquelle und mögliche Modelle ermitteln, die der Beschreibung entsprechen oder nicht entsprechen. Versuchen Sie auch, alle Entwurfsprobleme in Ihrem Modell zu modellieren.
Verwenden Sie die Visualisierungstools, überprüfen Sie die Daten (auf mögliche Abweichungen, offensichtliche Trends usw. usw., um die Daten zu verstehen), bevor Sie sie analysieren. Verwenden Sie die Visualisierungsmethoden (falls möglich), um zu sehen, wie das Modell zu diesen Daten passt.
Last but not least, verwenden Sie statistische Software für das, wofür sie gemacht sind (um Ihre Rechenaufgabe zu vereinfachen). Sie sind kein Ersatz für menschliches Denken.
quelle
Stellen Sie für die Organisation / Verwaltung von Daten sicher, dass beim Generieren neuer Variablen im Dataset (z. B. beim Berechnen des Body-Mass-Index aus Größe und Gewicht) die ursprünglichen Variablen niemals gelöscht werden. Ein zerstörungsfreier Ansatz ist aus Sicht der Reproduzierbarkeit am besten. Sie wissen nie, wann Sie einen Befehl falsch eingeben und anschließend Ihre Variablengenerierung wiederholen müssen. Ohne die ursprünglichen Variablen verlieren Sie viel Zeit!
quelle
Denken Sie hart über den zugrunde liegenden Datenerzeugungsprozess (DGP). Wenn das Modell, das Sie verwenden möchten, nicht den DGP widerspiegelt, müssen Sie ein neues Modell suchen.
quelle
Für Histogramme eine gute Faustregel für die Anzahl der Fächer in einem Histogramm :
Quadratwurzel der Anzahl der Datenpunkte
quelle
Trotz immer größerer Datensätze und leistungsfähigerer Software ist die Überanpassung von Modellen eine große Gefahr für Forscher, insbesondere für diejenigen, die noch nicht durch Überanpassung verbrannt wurden. Überanpassung bedeutet, dass Sie etwas Komplizierteres als Ihre Daten und den Stand der Technik angepasst haben. Wie Liebe oder Schönheit ist es schwer zu definieren, geschweige denn formal zu definieren, aber leichter zu erkennen.
Eine minimale Faustregel sind 10 Datenpunkte für jeden Parameter, der für eine klassische Regression geschätzt wird. Achten Sie auf die Konsequenzen, wenn Sie diese ignorieren. Für andere Analysen benötigen Sie in der Regel viel mehr, um gute Arbeit zu leisten, insbesondere wenn die Daten seltene Kategorien enthalten.
Auch wenn Sie ein Modell problemlos anpassen können, sollten Sie sich ständig Gedanken darüber machen, was es bedeutet und inwieweit es mit einem sehr ähnlichen Datensatz reproduzierbar ist.
quelle
quelle
Wenn das Modell nicht einfach und schnell konvergiert, liegt dies möglicherweise an der Software. Es kommt jedoch viel häufiger vor, dass Ihre Daten nicht für das Modell oder das Modell nicht für die Daten geeignet sind. Es könnte schwer zu sagen sein, welche, und Empiriker und Theoretiker können unterschiedliche Ansichten haben. Aber das Nachdenken über Themen, das genaue Betrachten der Daten und das ständige Nachdenken über die Interpretation des Modells helfen so gut es geht. Versuchen Sie vor allem ein einfacheres Modell, wenn ein kompliziertes nicht konvergiert.
Es bringt nichts, die Konvergenz zu forcieren oder den Sieg zu erklären und Ergebnisse nach vielen Iterationen zu erzielen, aber bevor Ihr Modell wirklich konvergiert hat. Am besten täuscht man sich, wenn man das tut.
quelle
In instrumentellen Variablen überprüft die Regression immer die gemeinsame Bedeutung Ihrer Instrumente. Die Faustregel von Staiger-Stock besagt, dass eine F-Statistik von weniger als 10 besorgniserregend ist und darauf hinweist, dass Ihre Instrumente möglicherweise schwach sind, dh sie sind nicht ausreichend mit der endogenen Variablen korreliert. Dies bedeutet jedoch nicht automatisch, dass ein F über 10 starke Instrumente garantiert. Staiger und Stock (1997) haben gezeigt, dass instrumentelle Variablentechniken wie 2SLS in "kleinen" Stichproben stark verzerrt sein können, wenn die Instrumente nur schwach mit der endogenen Variablen korrelieren. Ihr Beispiel war die Studie von Angrist und Krueger (1991) mit mehr als 300.000 Beobachtungen - eine beunruhigende Tatsache über die Vorstellung von "kleinen" Proben.
quelle
Es gibt keine Kriterien zur Auswahl von Informationskriterien.
Sobald jemand etwas wie "Das? IC zeigt dies an, aber es ist bekannt, dass es häufig zu falschen Ergebnissen führt" (wo? Ist ein beliebiger Buchstabe, den Sie mögen), wissen Sie, dass Sie auch über das Modell nachdenken müssen und insbesondere, ob es das richtige Modell ist wissenschaftlicher oder praktischer Sinn.
Das kann Ihnen keine Algebra sagen.
quelle
Ich habe das irgendwo gelesen (wahrscheinlich am Kreuz validiert) und konnte es nirgendwo finden, also hier geht's ...
Wenn Sie ein interessantes Ergebnis gefunden haben, ist es wahrscheinlich falsch.
Es ist sehr leicht, sich über einen atemberaubenden p-Wert oder einen nahezu perfekten Kreuzvalidierungsfehler zu freuen. Ich persönlich habe Kollegen ekstatisch großartige (falsche) Ergebnisse präsentiert, nur um sie zurückziehen zu müssen. Meistens, wenn es zu gut aussieht, um wahr zu sein ...
'taint wahr. 'Taint überhaupt wahr.
quelle
Versuchen Sie, tapfer und nicht tugendhaft zu sein. Lassen Sie sich also nicht von geringfügigen Anzeichen von Nicht-Normalität, Nicht-Unabhängigkeit oder Nicht-Linearität usw. blockieren, wenn solche Hinweise ignoriert werden müssen, damit die Daten laut und deutlich sprechen . - Auf Dänisch sind "dristig" gegen "dydig" die Adjektive.
quelle
Stellen Sie bei der Analyse von Längsschnittdaten sicher, dass die Variablen in jedem Zeitraum gleich codiert sind.
Während ich meine Dissertation verfasste, die die Analyse von Sekundärdaten beinhaltete, gab es ungefähr eine Woche völlige Verwirrung über eine Verschiebung der mittleren Depressionswerte um 1 Einheit über einen ansonsten stabilen Mittelwert pro Jahr: Es stellte sich heraus, dass es sich um eines der Jahre in meiner handelte Datensatz, Skalenelemente für ein validiertes Instrument wurden 1–4 anstelle von 0–3 codiert.
quelle
Ihre Hypothese sollte Ihre Modellwahl bestimmen und nicht umgekehrt.
Um es mit Maslow zu sagen: Wenn Sie ein Hammer sind, sieht alles aus wie ein Nagel. Bestimmte Modelle sind mit Blindheit und Annahmen über die Welt ausgestattet: Zum Beispiel ersticken nicht dynamische Modelle an der Rückkopplung von Behandlungsergebnissen.
quelle
Verwenden Sie die Simulation, um zu überprüfen, wo die Struktur Ihres Modells "Ergebnisse" erzeugt, die einfach mathematische Artefakte der Annahmen Ihres Modells sind
Führen Sie Ihre Analyse an neu randomisierten Variablen oder an simulierten Variablen durch , von denen bekannt ist , dass sie nicht miteinander korrelieren . Führen Sie dies viele Male durch und stellen Sie gemittelte Punktschätzungen (und Vertrauensbereiche oder glaubwürdige Intervalle) den Ergebnissen gegenüber, die Sie mit den tatsächlichen Daten erhalten: Sind sie alle so unterschiedlich?
quelle
Ich bin eher ein Datenanalyst als ein Statistiker, aber dies sind meine Vorschläge.
1) Bevor Sie Daten analysieren, stellen Sie sicher, dass die Annahmen Ihrer Methode richtig sind. Sobald Sie Ergebnisse sehen, können diese schwer zu vergessen sein, selbst nachdem Sie die Probleme behoben und die Ergebnisse geändert haben.
2) Es hilft, Ihre Daten zu kennen. Ich habe Zeitreihen durchgeführt und ein Ergebnis erhalten, das angesichts der Daten der letzten Jahre wenig Sinn ergab. Ich überprüfte die Methoden im Lichte dessen und stellte fest, dass die Mittelung von Modellen in der Methode die Ergebnisse für einen Zeitraum verfälschte (und ein Strukturbruch aufgetreten war).
3) Seien Sie vorsichtig mit Faustregeln. Sie spiegeln die Erfahrungen einzelner Forscher mit ihren eigenen Daten wider. Wenn sich ihr Fachgebiet stark von Ihrem unterscheidet, stimmen ihre Schlussfolgerungen möglicherweise nicht mit Ihren Daten überein. Darüber hinaus, und das war ein Schock für mich, sind sich Statistiker in wichtigen Punkten oft nicht einig.
4) Versuchen Sie, Daten mit verschiedenen Methoden zu analysieren und festzustellen, ob die Ergebnisse ähnlich sind. Verstehen Sie, dass keine Methode perfekt ist, und überprüfen Sie, wann immer möglich, ob die Annahmen verletzt wurden.
quelle