Übertreiben wir die Bedeutung der Modellannahme und -bewertung in einer Zeit, in der Analysen häufig von Laien durchgeführt werden?

54

Fazit : Je mehr ich über Statistik lerne, desto weniger vertraue ich veröffentlichten Artikeln in meinem Bereich. Ich glaube einfach, dass Forscher ihre Statistiken nicht gut genug machen.


Ich bin sozusagen ein Laie. Ich bin in Biologie ausgebildet, aber ich habe keine formale Ausbildung in Statistik oder Mathematik. Ich mag R und bemühe mich oft, einige der theoretischen Grundlagen der Methoden zu lesen (und zu verstehen ...), die ich bei der Forschung anwende. Es würde mich nicht überraschen, wenn die Mehrheit der Menschen, die heute Analysen durchführen, nicht offiziell geschult ist. Ich habe ungefähr 20 Originalarbeiten veröffentlicht, von denen einige von anerkannten Fachzeitschriften akzeptiert wurden, und Statistiker waren häufig an dem Überprüfungsprozess beteiligt. Meine Analysen umfassen üblicherweise Überlebensanalysen, lineare Regression, logistische Regression und gemischte Modelle. Noch nie hat ein Prüfer nach Modellannahmen, -anpassungen oder -bewertungen gefragt.

Daher habe ich mich nie zu sehr mit Modellannahmen, -anpassung und -bewertung befasst. Ich beginne mit einer Hypothese, führe die Regression durch und präsentiere dann die Ergebnisse. In einigen Fällen habe ich mich bemüht, diese Dinge zu bewerten, aber ich habe immer " gut, es hat nicht alle Annahmen erfüllt, aber ich vertraue den Ergebnissen (" Fachwissen ") und sie sind plausibel, also ist es in Ordnung " und " gut " Wenn sie einen Statistiker konsultierten, schienen sie immer einer Meinung zu sein.

Jetzt habe ich mit anderen Statistikern und Nicht-Statistikern (Chemikern, Ärzten und Biologen) gesprochen, die selbst Analysen durchführen. Es scheint, dass sich die Leute nicht allzu sehr um all diese Annahmen und formalen Bewertungen kümmern. Aber hier im CV gibt es eine Fülle von Leuten, die nach Residuen, Modellanpassung, Auswertungsmöglichkeiten, Eigenwerten, Vektoren und der Liste fragen. Lassen Sie es mich so sagen, wenn lme4 vor großen Eigenwerten warnt, bezweifle ich wirklich, dass viele seiner Benutzer sich darum bemühen, dies zu beheben ...

Lohnt sich der zusätzliche Aufwand? Ist es nicht wahrscheinlich, dass die Mehrheit aller veröffentlichten Ergebnisse diese Annahmen nicht respektiert und sie möglicherweise nicht einmal bewertet hat? Dies ist wahrscheinlich ein wachsendes Problem, da die Datenbanken von Tag zu Tag größer werden und die Annahme und Bewertung umso weniger wichtig ist, je größer die Daten sind.

Ich könnte absolut falsch liegen, aber so habe ich das wahrgenommen.

Update: Zitat von StasK (unten): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

Adam Robinsson
quelle
34
Ich möchte warnen, dass das Schließen dieser Frage eine wichtige Gelegenheit zur Diskussion darüber, wie Statistiken in der "realen Welt" außerhalb der Mauern der Statistikabteilungen verwendet werden, abschotten würde. CV ist einer der wenigen Orte, an denen sich Menschen und Statistiker aus der realen Welt treffen, und es ist eine wichtige, wenn auch implizite Mission von CV, die Kommunikationswege offen zu halten. Ich stimme voll und ganz denjenigen zu, die auf "Schließen" geklickt haben, da dies sehr weit gefasst und meinungsbasiert ist, aber ich hoffe trotzdem, dass wir diese Diskussion fortsetzen können.
StasK
5
Würde die Tatsache, dass viele Publikationen, Forscher oder sogar ganze Bereiche Annahmen beiläufig behandeln, nicht darauf hindeuten, dass wir uns nicht genug darum kümmern ? Es ist auch möglich, dass Statistiker und Lehrbücher ihre Bedeutung übertreiben, aber ihre Beliebtheit bei Praktizierenden und Laien kann sicherlich nicht der Maßstab dafür sein. Auch Konventionen und Standards variieren stark. Einige Disziplinen interessieren sich wahrscheinlich mehr dafür als diejenigen, mit denen Sie vertraut sind, während andere sich wahrscheinlich nicht sehr für Dinge interessieren, die für die Veröffentlichung in Ihrem Bereich sehr wichtig sind.
Gala
6
Nachdem ich ein Kommentarpapier verfasst habe, in dem eine frühere Studie kritisiert wurde, in der Modellannahmen wissentlich verletzt und falsche Schlussfolgerungen gezogen wurden, würde ich raten, den Ergebnissen nicht zu vertrauen und so selbstkritisch wie möglich zu sein.
Dikran Marsupial
7
"Je größer die Daten sind, desto weniger wichtig sind die Annahmen" gilt nicht für das tatsächliche Datenwachstum: Was wächst, ist (hauptsächlich) die Anzahl der abhängigen Beobachtungen / Merkmale aufgrund der Fortschritte in der Messtechnik. Im Gegensatz dazu bleibt die Anzahl unabhängiger Beobachtungen, dh experimenteller Einheiten oder Probanden, eher begrenzt (da die Populationen nicht durch technische Fortschritte zunehmen ...). Leider machen nur die Unabhängigkeit von Big Data die Annahmen (oft, nicht immer) aufgrund des zentralen Grenzwertsatzes weniger wichtig.
Horst Grünbusch
3
@AdamRobinsson: Ich mag die Schlussfolgerung, die Sie oben in Ihrer Frage gepostet haben. Ich würde noch vorsichtiger gegenüber Veröffentlichungen sein, die von Big Names veröffentlicht oder von Big Institutions unterstützt werden. Wenn ich Arbeiten von 15 hochrangigen Autoren angesehener Institutionen in hochrangigen Fachzeitschriften sehe, besteht mein erster Instinkt darin, die Arbeit noch genauer zu untersuchen , da die Möglichkeit besteht, dass die Arbeit aufgrund der Schlagkraft der Autoren / Institutionen veröffentlicht wurde. Diese Papiere haben tendenziell auch weitreichende politische Implikationen. Ein Beispiel aus meinem Bereich (Public Health) war die männliche Beschneidung für HIV-Präventionsstudien (Forts.)
Marquis de Carabas,

Antworten:

26

Ich bin gelernter Statistiker, kein Biologe oder Arzt. Aber ich mache einiges an medizinischer Forschung (in Zusammenarbeit mit Biologen und Ärzten). Als Teil meiner Forschung habe ich einiges über die Behandlung verschiedener Krankheiten gelernt. Bedeutet dies, dass wenn ein Freund mich nach einer von mir erforschten Krankheit fragt, ich ihm einfach ein Rezept für ein Medikament schreiben kann, von dem ich weiß, dass es häufig für diese bestimmte Krankheit angewendet wird? Wenn ich dies tun würde (ich nicht), dann würde es in vielen Fällen wahrscheinlich in Ordnung sein (da ein Arzt nur das gleiche Medikament verschrieben hätte), aber es besteht immer die Möglichkeit, dass sie eine Allergie / Droge haben Interaktion / Sonstiges, über das ein Arzt wissen würde, dass ich es nicht tue und das am Ende viel mehr Schaden als Nutzen anrichtet.

Wenn Sie Statistiken erstellen, ohne zu verstehen, was Sie vermuten und was schief gehen könnte (oder wenn Sie sich auf dem Weg dahin an einen Statistiker wenden, der nach solchen Dingen sucht), dann üben Sie statistische Verfehlungen. Meistens wird es wahrscheinlich in Ordnung sein, aber was ist mit der Gelegenheit, in der eine wichtige Annahme nicht zutrifft, aber Sie ignorieren sie einfach?

Ich arbeite mit einigen Ärzten zusammen, die einigermaßen statistisch kompetent sind und einen Großteil ihrer eigenen Analyse durchführen können, aber sie werden mich trotzdem überholen. Oft bestätige ich, dass sie das Richtige getan haben und dass sie die Analyse selbst durchführen können (und sie sind im Allgemeinen dankbar für die Bestätigung), aber gelegentlich werden sie etwas komplexeres tun, und wenn ich einen besseren Ansatz erwähne, werden sie die Analyse normalerweise umdrehen für mich oder mein Team oder zumindest für eine aktivere Rolle.

Meine Antwort auf Ihre Titelfrage lautet daher "Nein". Wir übertreiben nicht, sondern sollten einige Dinge stärker betonen, damit Laien ihre Verfahren / Ergebnisse mit größerer Wahrscheinlichkeit mindestens noch einmal mit einem Statistiker überprüfen.

Bearbeiten

Dies ist eine Ergänzung, die auf Adams Kommentar basiert (wird für einen weiteren Kommentar etwas lang sein).

Adam, Danke für deinen Kommentar. Die kurze Antwort lautet "Ich weiß nicht". Ich denke, dass Fortschritte bei der Verbesserung der statistischen Qualität von Artikeln erzielt werden, aber die Dinge haben sich in vielerlei Hinsicht so schnell entwickelt, dass es eine Weile dauern wird, die Qualität nachzuholen und zu garantieren. Ein Teil der Lösung konzentriert sich auf die Annahmen und Konsequenzen der Verstöße in den Einführungskursen. Dies ist wahrscheinlicher, wenn die Klassen von Statistikern unterrichtet werden, muss jedoch in allen Klassen geschehen.

Einige Zeitschriften schneiden besser ab, aber ich würde es begrüßen, wenn ein bestimmter Statistikprüfer zum Standard wird. Vor ein paar Jahren gab es einen Artikel (leider habe ich die Referenz nicht zur Hand, aber er war entweder in JAMA oder im New England Journal of Medicine), der eine höhere Wahrscheinlichkeit der Veröffentlichung aufwies (wenn auch keinen so großen Unterschied, wie er sollte) be) in JAMA oder NEJM, wenn ein Biostatistiker oder Epidemiologe einer der Mitautoren war.

Ein interessanter Artikel, der kürzlich veröffentlicht wurde, ist: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412, in dem einige der gleichen Themen behandelt werden.

Greg Snow
quelle
1
Ich teile deinen Standpunkt, Greg. Ich denke, Ihre Antwort erklärt es klar. Aber ich möchte Sie zitieren: "[...] Dann üben Sie statistische Verfehlungen. Meistens wird es wahrscheinlich in Ordnung sein." Es besteht die Gefahr, dass sich dieser Begriff ausbreitet und dass die Leute ihn so wahrnehmen: Jeder kann Statistiken erstellen (was grundsätzlich falsch ist, wenn Sie mich fragen, wer ein bisschen an der Oberfläche der Statistiken gekratzt hat). Die Frage ist, wie wir sicherstellen können, dass veröffentlichte Arbeiten in Bezug auf die statistischen Analysen korrekt sind. Weil ich mich
langsam
@AdamRobinsson, siehe meinen Zusatz oben.
Greg Snow
Das ist ziemlich elitär. Ich bin damit einverstanden, dass professionelle Statistiker über die Kompetenz und das Fachwissen verfügen, um statistische Analysen durchzuführen, aber auch Wissenschaftler. In der Tat kamen einige der bahnbrechenden Fortschritte in der Statistik von Wissenschaftlern (z. B. Fisher & Jeffrey), die Statistiken in der realen Welt praktizierten.
Innisfree
Es ist auch seltsam zu sagen, dass das, was eine statistische Verfehlung darstellt, nicht nur von der Qualität oder den Ergebnissen der statistischen Analyse abhängt, sondern auch von subjektiven Beurteilungen über die Stärke des statistischen Verständnisses der Analysten
innisfree
@innisfree, ich verstehe deine Kommentare nicht, oder vielleicht verstehst du meine Position nicht. Ich sage nicht, dass nur Statistiker die Annahmen / Bedingungen betrachten können, nur, dass sie wichtig sind und entweder ein Statistiker konsultiert werden sollte oder die nicht-statistischen Wissenschaftler genug Statistiken lernen sollten, um die Probleme zu verstehen, die über das bloße Einstecken der Zahlen hinausgehen in eine Formel / Computer. Persönlich würde ich gerne mehr Minderjährige mit Fachkenntnissen in Medizin / Ingenieurwesen usw. sehen, aber auch mit einem besseren Verständnis der Ideen hinter Statistiken.
Greg Snow
28

Nun ja, Annahmen spielen eine Rolle - wenn sie überhaupt keine Rolle spielen würden, müssten wir sie nicht machen, oder?

Die Frage ist, wie wichtig sie sind - dies variiert je nach Verfahren und Annahmen und was Sie über Ihre Ergebnisse behaupten möchten (und auch, wie tolerant Ihre Zielgruppe bei solchen Behauptungen in etwa ist - auch wenn sie ungenau sind).

Betrachten Sie als Beispiel für eine Situation, in der eine Annahme kritisch ist, die Normalitätsannahme in einem F-Test von Varianzen. Selbst relativ bescheidene Änderungen in der Verteilung können sich dramatisch auf die Eigenschaften (tatsächliches Signifikanzniveau und -stärke) des Verfahrens auswirken. Wenn Sie behaupten, dass Sie einen Test mit 5% durchführen, obwohl dieser tatsächlich bei 28% liegt, tun Sie in gewisser Weise das Gleiche, als würden Sie darüber lügen, wie Sie Ihre Experimente durchgeführt haben. Wenn Sie solche statistischen Probleme nicht für wichtig halten, führen Sie Argumente an, die sich nicht auf sie stützen. Wenn Sie andererseits die statistischen Informationen als Unterstützung verwenden möchten, können Sie diese Unterstützung nicht falsch darstellen.

In anderen Fällen sind bestimmte Annahmen möglicherweise weniger kritisch. Wenn Sie den Koeffizienten in einer linearen Regression schätzen und es Ihnen egal ist, ob er statistisch signifikant ist, und Sie sich nicht um die Effizienz kümmern, spielt es keine Rolle, ob die Annahme der Homoskedastizität zutrifft. Aber wenn Sie sagen möchten, dass es statistisch signifikant ist oder ein Konfidenzintervall aufweist, kann dies sicherlich eine Rolle spielen.

Glen_b
quelle
2
Der Kommentar von Glen_b ist gut aus dem statistischen Ansatz für die Wichtigkeit von Annahmen zu entnehmen. Ich denke, es sollte jedoch auch beachtet werden, dass für die Zwecke der Veröffentlichung die Überprüfung von Annahmen eine etwas andere Angelegenheit ist, da die Verletzung der Annahmen nur insofern von Bedeutung ist, als die Prüfer oder Herausgeber sich darum bemühen, dass sie eine Rolle spielen. Als Beispiel kann die Theorie hinter dem Ergebnis ausreichend Wert für die Veröffentlichung liefern, wobei die Hoffnung besteht, dass Probleme mit der Analyse durch zukünftige Veröffentlichungen gelöst werden können.
Jonathan Lisic
Nun, auch wenn Rezensenten das Papier überprüfen, bleibt die Verantwortung mit Fehlern bei den Autoren. Aus eigenem Interesse sollten Sie überprüfen ...
kjetil b halvorsen
In der Tat bleibt die Verantwortung immer bei den Autoren. Aber Autoren werden heutzutage von unangemessenen Treibern getrieben, die sie zwingen, nicht selten auf schnelle und schmutzige Weise zu veröffentlichen. Ich würde mir einen Überprüfungsprozess wünschen, der die Deklaration der kritischsten statistischen Annahmen vorschreibt. Heute ist es selbstverständlich, dass die statistische Analyse gemäß dem Buch durchgeführt wurde, aber ich glaube, dass dies seltener als gewöhnlich ist.
Adam Robinsson
3
+1 "Die Frage ist, wie wichtig sie sind" - das bringt das gesamte Thema auf den Punkt. Ich möchte auch darauf hinweisen, dass bei der Anwendung statistischer Schlussfolgerungen nicht bekannt ist, inwieweit bestimmte statistische Annahmen verletzt werden. Wir können die Robustheit der Analyse nur dann postulieren oder in Betracht ziehen, wenn dies der Fall ist, und dies ist ein wesentlicher, aber häufig übersehener Aspekt der statistischen Praxis.
Heropup
18

Während Glen_b eine großartige Antwort gab , möchte ich dem ein paar Cent hinzufügen.

Eine Überlegung ist, ob Sie wirklich die wissenschaftliche Wahrheit erfahren möchten, die es erforderlich macht, Ihre Ergebnisse zu polieren und alle Details darüber herauszufinden, ob Ihr Ansatz vertretbar ist. Modus. Mit anderen Worten, Sie müssen Ihr inneres berufliches Gewissen fragen, ob Sie den bestmöglichen Job machen. Der Hinweis auf die geringe statistische Kompetenz und die nachlässigen statistischen Praktiken in Ihrer Disziplin ist kein überzeugendes Argument. Gutachter sind oft nur halb hilfreich, wenn sie aus derselben Disziplin wie diese laxen Standards stammen, obwohl einige Top-Outlets explizite Initiativen haben , um statistisches Fachwissen in den Gutachterprozess einzubeziehen.

Aber selbst wenn Sie ein zynischer "Publish-or-Perish" -Salami-Slicer sind, ist die andere Überlegung im Grunde die Sicherheit Ihres Forschungsrufs. Wenn Ihr Modell versagt und Sie es nicht wissen, setzen Sie sich dem Risiko einer Widerlegung durch diejenigen aus, die die Axt mit verfeinerten Instrumenten in die Ritzen der Modellprüfungen treiben können. Zugegeben, die Wahrscheinlichkeit dafür scheint gering zu sein, da die Wissenschaftsgemeinschaft trotz der nominalen philosophischen Anforderungen an Reputation und Reproduzierbarkeit selten versucht, die Forschung eines anderen zu reproduzieren. (Ich war daran beteiligt, ein paar Artikel zu schreiben, die im Grunde mit folgendem anfingen: "Oh mein Gott, haben sie es wirklich getan ?Schreiben Sie das? "und kritisierten und verfeinerten einen von Fachleuten geprüften, veröffentlichten, halbstatistischen Ansatz.) Wenn statistische Analysen jedoch aufgedeckt werden , verursachen sie häufig große und unangenehme Spritzer.

StasK
quelle
Ich mag den Ansatz sehr: professionelles Gewissen, und ich glaube, viele haben Gewissen, aber es fehlt ihnen immer noch das Wissen; Aber es hindert sie nicht daran, Daten so darzustellen, als ob sie perfekt gemacht worden wären. Interessanterweise zitieren Sie einen Wissenschaftsartikel, der dies klar ausdrückt: "[...] Die weit verbreitete Besorgnis, dass grundlegende Fehler in der Datenanalyse dazu beitragen, dass viele veröffentlichte Forschungsergebnisse nicht reproduzierbar sind." Ich denke wirklich, dass wir Laien die Schwierigkeit statistischer Methoden nicht wirklich respektieren und es ein wachsendes Problem sein sollte, wie oben erläutert.
Adam Robinsson
1
In meiner aktuellen Forschungsgruppe sind wir 15 Forscher (Biologen, Ärzte) und einige von ihnen sind wirklich produktiv, aber keiner ist ein Statistiker. Alle Nachwuchsforscher haben R oder SAS installiert und führen Berechnungen durch, in der Regel nachdem sie nur wenige Tutorials im Internet gelesen haben. Das ist ein großes Problem.
Adam Robinsson
4
@AdamRobinsson, die bloße Tatsache, dass Sie im Lebenslauf danach gefragt haben, spricht für Ihr Gewissen. Ein weiterer Nature-Link, den Sie zu einem verwandten Thema des wissenschaftlichen Rechnens (und der mangelnden Umsetzung der Best Practices in der Softwareentwicklung durch Wissenschaftler, die ihren eigenen C / Fortran / R-Code schreiben) lesen können - nature.com/news/2010 /101013/full/467775a.html .
StasK
3
Da die Wissenschaftsgemeinschaft trotz der nominalen philosophischen Anforderungen an Reputation und Reproduzierbarkeit selten versucht, die Forschung eines anderen zu reproduzieren, stimme ich dieser Aussage voll und ganz zu.
Robert Smith
software-carpentry.org , "eine gemeinnützige Organisation, die sich der Vermittlung grundlegender Computerkenntnisse für Forscher widmet", bietet ziemlich gute Tutorials und Seminare.
Denis
9

Die Art von Verstößen gegen Annahmen kann ein wichtiger Hinweis für die zukünftige Forschung sein. Beispielsweise könnte eine Verletzung der Proportional-Hazard-Annahme in der Cox-Überlebensanalyse auf eine Variable zurückzuführen sein, die einen großen Einfluss auf das kurzfristige Überleben hat, auf längere Sicht jedoch nur einen geringen Einfluss. Dies ist die Art unerwarteter, aber möglicherweise wichtiger Informationen, die Sie erhalten, wenn Sie die Gültigkeit Ihrer Annahmen in einem statistischen Test überprüfen.

Sie tun sich also selbst, nicht nur die Literatur, einen potenziellen Nachteil zu, wenn Sie die zugrunde liegenden Annahmen nicht testen. Wenn hochwertige Journale immer anspruchsvollerer statistischer Überprüfungen bedürfen, werden Sie häufiger dazu aufgefordert. Sie möchten sich nicht in einer Position befinden, in der ein von einem statistischen Gutachter geforderter Test das untergräbt, was Ihrer Meinung nach ein zentraler Punkt Ihrer Arbeit war.

EdM
quelle
Ich stimme dieser Bemerkung voll und ganz zu, was ich für sehr wichtig halte.
Adam Robinsson
9

Ich werde aus einer Zwischenperspektive antworten. Ich bin kein Statistiker, ich bin Chemiker. In den letzten 10 Jahren habe ich mich jedoch auf Chemometrie = statistische Datenanalyse für chemiebezogene Daten spezialisiert.

Ich glaube einfach, dass Forscher ihre Statistiken nicht gut genug machen.

Das ist wahrscheinlich der Fall.


Kurzfassung:

Nun zu den Annahmen. Meiner Meinung nach ist die Situation hier viel zu heterogen, um sie in einer Aussage zu behandeln. Um beurteilen zu können, ob der Verstoß harmlos oder kritisch ist, ist es erforderlich zu wissen, wofür genau die Annahme erforderlich ist und auf welche Weise wahrscheinlich ein Verstoß von der Anwendung ausgeht. Und dazu braucht es sowohl die Statistik als auch das Anwendungswissen.
Als Praktiker, der mit unerfüllbaren Annahmen konfrontiert ist, brauche ich aber noch etwas anderes: Ich hätte gerne eine "2. Verteidigungslinie", mit der ich beispielsweise beurteilen kann, ob der Verstoß tatsächlich Probleme verursacht oder harmlos ist.


Lange Version:

  • Aus praktischer Sicht werden einige typische Annahmen so gut wie nie getroffen. Manchmal kann ich sinnvolle Annahmen über die Daten formulieren, aber oft werden die Probleme dann aus statistischer Sicht so kompliziert, dass Lösungen noch nicht bekannt sind. Inzwischen glaube ich, dass Wissenschaft bedeutet, dass Sie an die Grenzen dessen stoßen, was wahrscheinlich nicht nur in Ihrer speziellen Disziplin, sondern auch in anderen Disziplinen (hier: angewandte Statistik) bekannt ist.

  • Es gibt andere Situationen, in denen bestimmte Verstöße normalerweise harmlos sind - z. B. die multivariate Normalität mit gleicher Kovarianz für LDA, um zu zeigen, dass LDA optimal ist. Es ist jedoch bekannt, dass die Projektion einer Heuristik folgt, die häufig auch dann eine gute Leistung erbringt, wenn Annahme ist nicht erfüllt. Und welche Verstöße können zu Problemen führen? Es ist auch bekannt, dass schwere Verteilungsschwänze in der Praxis zu Problemen mit der LDA führen.
    Leider schafft es ein solches Wissen nur selten in die verdichtete Schrift eines Papiers, sodass der Leser keine Ahnung hat, ob sich die Autoren nach sorgfältiger Prüfung der Eigenschaften der Anwendung und des Modells für ihr Modell entschieden haben oder ob sie einfach ein beliebiges Modell ausgewählt haben sie kamen rüber.

  • Manchmal entwickeln sich praktische Ansätze (Heuristiken), die sich aus praktischer Sicht als sehr nützlich erweisen, auch wenn es Jahrzehnte dauert, bis ihre statistischen Eigenschaften verstanden sind (ich denke an PLS).

  • Das andere, was passiert (und was noch passieren sollte), ist, dass die möglichen Folgen des Verstoßes überwacht (gemessen) werden können, um zu entscheiden, ob es ein Problem gibt oder nicht. Für die Anwendung ist es mir vielleicht egal, ob mein Modell optimal ist, solange es ausreichend gut ist.
    In der Chemometrie konzentrieren wir uns stark auf die Vorhersage. Und dies bietet einen sehr schönen Ausweg für den Fall, dass die Modellierungsannahmen nicht erfüllt werden: Unabhängig von diesen Annahmen können wir messen, ob das Modell gut funktioniert. Aus Sicht eines Praktikers würde ich sagen, dass Sie während des Modellierens alles tun dürfen, was Sie möchten, wenn Sie eine ehrliche, hochmoderne Validierung durchführen und melden.
    Für die chemometrische Analyse von spektroskopischen Daten sind wir an einem Punkt angelangt, an dem wir keine Residuen mehr betrachten, da wir wissen, dass die Modelle leicht überanpassbar sind. Stattdessen betrachten wir die Leistung der Testdaten (und möglicherweise den Unterschied zur Leistung der Vorhersage von Trainingsdaten).

  • Es gibt andere Situationen, in denen wir zwar nicht genau vorhersagen können, inwieweit ein Verstoß gegen welche Annahme zu einem Zusammenbruch des Modells führt, aber die Folgen schwerwiegender Verstöße gegen die Annahme eher direkt messen können.
    Nächstes Beispiel: Die Studiendaten, mit denen ich mich in der Regel befasse, liegen um Größenordnungen unter den Stichprobengrößen, die die statistischen Faustregeln für Fälle pro Variation empfehlen (um stabile Schätzungen zu gewährleisten). In den Statistikbüchern spielt es jedoch normalerweise keine Rolle, was in der Praxis zu tun ist, wenn diese Annahme nicht erfüllt werden kann. Sie können auch nicht messen, ob Sie in dieser Hinsicht tatsächlich in Schwierigkeiten sind. Aber: Solche Fragen werden in den eher angewandten Disziplinen behandelt. Es stellt sich heraus, dass es oft recht einfach ist, die Modellstabilität direkt zu messen oder zumindest, ob Ihre Vorhersagen instabil sind (lesen Sie hier den Lebenslauf zur Validierung von Resampling und zur Modellstabilität). Und es gibt Möglichkeiten, instabile Modelle zu stabilisieren (z. B. Absacken).

  • Als Beispiel für die "2. Verteidigungslinie" sollte die Validierung des Resamplings in Betracht gezogen werden. Die übliche und stärkste Annahme ist, dass alle Ersatzmodelle einem Modell entsprechen, das für den gesamten Datensatz trainiert wurde. Wenn diese Annahme verletzt wird, erhalten wir die bekannte pessimistische Tendenz. Die zweite Zeile besagt, dass zumindest die Ersatzmodelle einander äquivalent sind, sodass wir die Testergebnisse bündeln können.


Zu guter Letzt möchte ich die "Kundenwissenschaftler" und die Statistiker ermutigen, mehr miteinander zu sprechen . Die statistische Datenanalyse IMHO kann nicht in eine Richtung durchgeführt werden. Irgendwann muss sich jede Seite etwas Wissen über die andere Seite aneignen. Ich helfe manchmal beim "Übersetzen" zwischen Statistikern, Chemikern und Biologen. Ein Statistiker kann wissen, dass das Modell einer Regularisierung bedarf. Um beispielsweise zwischen LASSO und einem Grat zu wählen, müssen sie die Eigenschaften der Daten kennen, die nur der Chemiker, Physiker oder Biologe kennen kann.

cbeleites unterstützt Monica
quelle
6

Angesichts der Tatsache, dass der Lebenslauf von Statistikern und Personen ausgefüllt wird, die auf Statistiken neugierig, wenn nicht sogar kompetent sind, wundert es mich nicht, dass alle Antworten die Notwendigkeit betonen, die Annahmen zu verstehen. Auch diesen Antworten stimme ich grundsätzlich zu.

Unter Berücksichtigung des Veröffentlichungsdrucks und der geringen statistischen Integrität muss ich jedoch sagen, dass diese Antworten recht naiv sind. Wir können die Leute sagen , was sie den ganzen Tag tun sollten , lang (dh überprüfen Sie Ihre Annahme), aber was sie werden tun , hängt allein von den institutionellen Anreize. Das OP selbst gibt an, dass es ihm gelingt, 20 Artikel zu veröffentlichen, ohne die Annahme des Modells zu verstehen. Aufgrund meiner eigenen Erfahrung fällt es mir nicht schwer, das zu glauben.

Ich möchte also den Anwalt des Teufels spielen und die Frage von OP direkt beantworten. Dies ist keineswegs eine Antwort, die für "gute Praxis" wirbt, sondern eine, die widerspiegelt, wie Dinge mit einem Hauch von Satire geübt werden.

Lohnt sich der zusätzliche Aufwand?

Nein, wenn das Ziel die Veröffentlichung ist, lohnt es sich nicht, die ganze Zeit damit zu verbringen, das Modell zu verstehen. Folgen Sie einfach dem vorherrschenden Modell in der Literatur. Auf diese Weise 1) besteht Ihre Arbeit leichter Überprüfungen und 2) ist das Risiko einer Gefährdung durch "statistische Inkompetenz" gering, da Sie das gesamte Feld, einschließlich vieler älterer Personen, aussetzen müssen.

Ist es nicht wahrscheinlich, dass die Mehrheit aller veröffentlichten Ergebnisse diese Annahmen nicht respektiert und sie möglicherweise nicht einmal bewertet hat? Dies ist wahrscheinlich ein wachsendes Problem, da die Datenbanken von Tag zu Tag größer werden und die Annahme und Bewertung umso weniger wichtig ist, je größer die Daten sind.

Ja, es ist wahrscheinlich, dass die meisten veröffentlichten Ergebnisse nicht wahr sind. Je mehr ich in die Forschung involviert bin, desto wahrscheinlicher erscheint es mir.

Heisenberg
quelle
1
Ich denke, Sie haben einige sehr gute Punkte, die oben nicht erwähnt wurden. nämlich der Druck zu veröffentlichen und die Zeitschriften Druck, Artikel zu finden, um die Zeitschrift zu füllen. Es ist ein Albtraum für Redakteure, keine Artikel zu veröffentlichen, und Forscher müssen für ihre bloße Existenz veröffentlichen. Aus methodologischer Sicht bin ich jedoch der Ansicht, dass die meisten veröffentlichten Ergebnisse umso mehr falsch / weniger richtig / unvollkommen sind (aus statistischer Sicht), je mehr ich mich in die Forschung einlasse.
Adam Robinsson
4

Die kurze Antwort lautet "nein". Statistische Methoden wurden unter einer Reihe von Annahmen entwickelt, die erfüllt sein sollten, damit die Ergebnisse gültig sind. Es liegt also nahe, dass die Ergebnisse möglicherweise nicht gültig sind, wenn die Annahmen nicht erfüllt werden. Natürlich können einige Schätzungen trotz Verstößen gegen Modellannahmen immer noch robust sein. Zum Beispiel scheint die multinomiale Protokollierung trotz Verstößen gegen die IIA-Annahme eine gute Leistung zu erbringen (siehe die Dissertation von Kropko (2011) in der nachstehenden Referenz).

Als Wissenschaftler sind wir verpflichtet, sicherzustellen, dass die von uns veröffentlichten Ergebnisse gültig sind, auch wenn es den Fachleuten egal ist, ob die Annahmen erfüllt wurden. Dies liegt daran, dass die Wissenschaft von der Annahme ausgeht, dass die Wissenschaftler die Dinge bei der Verfolgung der Tatsachen auf die richtige Art und Weise tun. Wir vertrauen darauf, dass unsere Kollegen ihre Arbeit überprüfen, bevor sie an die Zeitschriften gesendet wird. Wir vertrauen darauf, dass die Schiedsrichter ein Manuskript kompetent prüfen, bevor es veröffentlicht wird. Wir nehmen andass sowohl die Forscher als auch die Schiedsrichter wissen, was sie tun, damit die Ergebnisse von Arbeiten, die in von Experten begutachteten Fachzeitschriften veröffentlicht werden, als vertrauenswürdig eingestuft werden können. Wir wissen, dass dies in der realen Welt nicht immer zutrifft, basierend auf der Fülle von Artikeln in der Literatur, in denen Sie am Ende den Kopf schütteln und die Augen verdrehen, wenn Sie die offensichtlich von Kirschen gepflückten Ergebnisse in angesehenen Journalen sehen (" Jama hat dieses Papier veröffentlicht ?! ").

Nein, die Wichtigkeit kann nicht genug betont werden, zumal die Leute darauf vertrauen, dass Sie - der Experte - Ihre Due Diligence durchgeführt haben. Das Mindeste, was Sie tun können, ist, über diese Verstöße im Abschnitt "Einschränkungen" Ihres Dokuments zu sprechen, um den Leuten dabei zu helfen, die Gültigkeit Ihrer Ergebnisse zu interpretieren.

Referenz

Kropko, J. 2011. Neue Ansätze zur diskreten Auswahl und Zeitreihenquerschnittsmethodik für die politische Forschung (Dissertation). UNC-Chapel Hill, Chapel Hill, NC.

Marquis de Carabas
quelle
Ich stimme diesen wertvollen Kommentaren zu. Aber glauben Sie nicht, dass das "darf" in "darf nicht ungültig sein" der Grund ist, warum sich die Leute nicht allzu sehr um sie kümmern. Ich glaube, dass das bloße Vorhandensein einer Hypothese zu einer Analyseverzerrung führen kann, die für dieses Thema relevant ist.
Adam Robinsson
TIL Kropko ist CV-Nutzer.
Setzen Sie Monica
@AdamRobinsson, ich denke, die Leute kümmern sich nicht darum, weil sie nicht genau verstehen, wie oder warum die Ergebnisse möglicherweise ungültig sind. Ein großer Teil des Problems liegt in der Statistikausbildung in einem "angewandten" Bereich. Meine eigene Ausbildung ist in einem angewandten Bereich. Meine Kurse in Ökonometrie machten keinen Vorwand, ein vollständiger Ökonometriekurs zu sein, und wurden als "fortgeschrittene Forschungsmethoden" oder so ähnlich bezeichnet. Da es keine statistischen Voraussetzungen gab, würden Profis die Modellannahmen beschönigen, um mehr Zeit für Stata-Befehle und die Interpretation der Ergebnisse zu verwenden.
Marquis de Carabas
@AdamRobinsson, Das erste Mal, dass ich in einem Graduiertenprogramm war, war es auch für ein angewandtes Fach, aber die Klassen wurden von Biostatisten unterrichtet. Die Biostatistiker unterrichteten ausführlich über Modellannahmen und die verschiedenen Prüfungen, die wir durchführen sollten, da einige der Schüler in der Klasse Biostatistikschüler waren. Es war jedoch klar, dass der Rest der Schüler, die an diesen Kursen teilnahmen, nicht verstand, warum wir diese Annahmen überprüften, da die Profis die Bedeutung nicht in einer Sprache kommunizierten, die die Schüler verstanden.
Marquis de Carabas
1
@marquisdecarabas, einverstanden. Es ist offensichtlich ein grundlegendes Problem, sie nicht zu verstehen. Manchmal frage ich mich jedoch, ob es nicht an der immensen Zeit lag, die für die Datenmanipulation aufgewendet wurde, die die Lust entwässert, die Annahmen zu übernehmen.
Adam Robinsson
2

Wenn Sie sehr fortgeschrittene Statistiken benötigen, ist dies höchstwahrscheinlich darauf zurückzuführen, dass Ihre Daten ein Chaos sind, wie es in den meisten Sozialwissenschaften der Fall ist, ganz zu schweigen von der Psychologie. In den Bereichen, in denen Sie gute Daten haben, benötigen Sie nur sehr wenige Statistiken. Die Physik ist ein sehr gutes Beispiel.

Betrachten Sie dieses Zitat von Galileo über sein berühmtes Gravitationsbeschleunigungsexperiment:

Ein Stück Holz, etwa 12 Ellen lang, eine halbe Elle breit und drei Fingerbreiten dick, wurde genommen; an seinem Rand war ein Kanal von etwas mehr als einem Finger Breite geschnitten; Nachdem wir diese Rille sehr gerade, glatt und poliert gemacht und sie mit Pergament ausgekleidet hatten, auch so glatt und poliert wie möglich, rollten wir eine harte, glatte und sehr runde Bronzekugel entlang. Nachdem wir dieses Brett in eine geneigte Position gebracht hatten, indem wir ein Ende um ein oder zwei Ellen übereinander hoben, rollten wir den Ball, wie ich gerade sagte, entlang des Kanals und notierten auf eine Art und Weise, die gerade beschrieben wird, die benötigte Zeit den Abstieg machen. Wir haben dieses Experiment mehrmals wiederholt, um die Zeit mit einer Genauigkeit zu messen, bei der die Abweichung zwischen zwei Beobachtungen niemals ein Zehntel eines Pulsschlags überschritt. Nachdem wir diese Operation durchgeführt und uns von ihrer Zuverlässigkeit überzeugt hatten, rollten wir den Ball nur noch ein Viertel der Länge des Kanals. und nachdem wir die Zeit ihres Abstiegs gemessen hatten, fanden wir genau die Hälfte davon. Als nächstes versuchten wir es mit anderen Entfernungen, verglichen die Zeit für die gesamte Länge mit der für die Hälfte oder mit der für zwei Drittel oder drei Viertel oder in der Tat für einen Bruchteil; In solchen Experimenten, die hundertmal wiederholt wurden, stellten wir immer fest, dass die durchquerten Räume wie die Quadrate der Zeit zueinander waren, und dies galt für alle Neigungen der Ebene, dh des Kanals, entlang dem wir den rollten Ball. Wir beobachteten auch, dass die Abstiegszeiten für verschiedene Neigungen der Ebene genau das Verhältnis zueinander hatten, das, wie wir später sehen werden,

Für die Zeitmessung verwendeten wir ein großes Wassergefäß in erhöhter Position; Auf den Boden dieses Gefäßes wurde ein Rohr mit kleinem Durchmesser gelötet, das einen dünnen Wasserstrahl ergab, den wir während des Abstiegs in einem kleinen Glas sammelten, sei es über die gesamte Länge des Kanals oder über einen Teil seiner Länge; das so gesammelte Wasser wurde nach jedem Abstieg auf einer sehr genauen Waage gewogen; Die Unterschiede und Verhältnisse dieser Gewichte gaben uns die Unterschiede und Verhältnisse der Zeit wieder, und dies mit einer solchen Genauigkeit, dass, obwohl die Operation viele, viele Male wiederholt wurde, es keine nennenswerte Diskrepanz in den Ergebnissen gab .

Beachten Sie den von mir hervorgehobenen Text. Das sind gute Daten. Es stammt aus einem gut geplanten Experiment, das auf einer guten Theorie basiert. Sie benötigen keine Statistiken, um das zu extrahieren, woran Sie interessiert sind. Zu diesem Zeitpunkt gab es keine Statistiken und es gab auch keine Computer. Das Ergebnis? Eine ziemlich fundamentale Beziehung, die immer noch Bestand hat und von einem sechsten Schüler zu Hause getestet werden kann.

Ich habe das Zitat von dieser fantastischen Seite gestohlen .

UPDATE: Um @Silverfish zu kommentieren, hier ein Beispiel für Statistiken in der experimentellen Teilchenphysik. Ziemlich einfach, oder? Kaum über dem MBA-Niveau. Beachte, wie sie lieben :) Nimm das, Statistiker!χ2

Aksakal
quelle
2
"In den Bereichen, in denen Sie gute Daten haben, benötigen Sie nur sehr wenige Statistiken. Die Physik ist ein sehr gutes Beispiel." Ich verstehe den Punkt, aber es ist erwähnenswert, dass Teilchenphysiker sowohl über eine Fülle von Daten als auch über eine ganze Reihe fortschrittlicher statistischer Techniken verfügen, um diese zu analysieren.
Silverfish
@Silverfish, kannst du mir ein Beispiel für erweiterte Statistiken geben? Was ich gesehen habe hat mich nicht sehr beeindruckt. Meiner Meinung nach kennt ein durchschnittlicher Doktorand mehr Statistiken als ein Weltklasse-Teilchenphysiker. Was Physiker wirklich gut können, sind Dinge wie statistische Mechanik, aber das unterscheidet sich sehr von dem, was wir "fortgeschrittene Statistiken" nennen würden. Ich stimme Ihnen voll und ganz zu, dass ihre Datensätze umwerfend sind. Sie haben mit Big Data begonnen, bevor "Big Data" zu einem nervigen Modewort wurde.
Aksakal,
1
Sie haben eine recht interessante nehmen auf „Konfidenzintervall“ besonders für Parameter , die nicht negativ sein können, siehe zB en.wikipedia.org/wiki/CLs_upper_limits_%28particle_physics%29
Silberfischchen
(Ich halte es für unfair, an Tag 1 eines Einführungskurses als Vertreter aller Statistiken teilzunehmen, die Sie benötigen, um Teilchenphysiker zu werden!)
Silverfish,
@Aksakal, ich persönlich verstehe, dass Bayes'sche Methoden Wunder wirken, wenn es wenig Modellunsicherheit gibt, dh harte Wissenschaften, in denen Modelle nach etwa 5.000-dimensionaler Integration alle Schrödinger-Gleichungen enthalten. In der Ökonomie wird der Bayes'sche Ansatz kaum überleben, da sich die empirischen Forscher auf Schlussfolgerungen konzentrieren, die gegenüber potenziellen Modellfehlspezifikationen robust sind. (Ich bin ein Physiker mit einem Bachelor-Abschluss, obwohl ich seit über 20 Jahren keine Physik mehr gemacht habe, und ein quantitativer Sozialwissenschaftler, der
derzeit arbeitet
2

Diese Frage scheint ein Fall von beruflicher Integrität zu sein.

Das Problem scheint zu sein, dass entweder: (a) die statistische Analyse durch Laien nicht ausreichend kritisch bewertet wird oder (b) ein allgemein bekannter Fall nicht ausreicht, um statistische Fehler zu identifizieren (wie ein Fehler vom Typ 2)?

Ich weiß genug über mein Fachgebiet, um einen Expertenbeitrag anzufordern, wenn ich mich der Grenze dieses Fachgebiets nähere. Ich habe Leute gesehen, die Dinge wie den F-Test (und das R-Quadrat in Excel) ohne ausreichende Kenntnisse verwendet haben.

Meiner Erfahrung nach haben die Bildungssysteme in unserem Bestreben, Statistiken zu fördern, die Instrumente zu stark vereinfacht und die Risiken / Grenzen unterschätzt. Ist dies ein gemeinsames Thema, das andere erlebt haben und das die Situation erklären würde?

MarkR
quelle