Ich habe kürzlich eine Frage zu allgemeinen Grundsätzen für die Überprüfung von Statistiken in Veröffentlichungen gestellt . Was ich jetzt fragen möchte, ist, was Sie beim Überprüfen einer Arbeit besonders irritiert, dh was ist der beste Weg, um einen statistischen Schiedsrichter wirklich zu ärgern!
Ein Beispiel pro Antwort, bitte.
references
referee
csgillespie
quelle
quelle
Antworten:
Was mich persönlich besonders irritiert , sind Leute, die eindeutig benutzergeschriebene Pakete für Statistiksoftware verwendet haben, diese aber nicht oder nur unzureichend zitieren und damit den Autoren keine Ehre machen. Dies ist besonders wichtig, wenn sich die Autoren im akademischen Bereich befinden und ihre Arbeit von der Veröffentlichung von Artikeln abhängt , die zitiert werden . (Vielleicht sollte ich hinzufügen, dass in meinem Bereich viele der Täter keine Statistiker sind.)
quelle
Meine Güte, mir fallen so viele Dinge ein ...
Schrittweise Regression
Aufteilen fortlaufender Daten in Gruppen
Geben Sie p-Werte an, aber kein Maß für die Effektgröße
Beschreiben von Daten unter Verwendung des Mittelwerts und der Standardabweichung, ohne anzugeben, ob die Daten mehr oder weniger symmetrisch und unimodal waren
Zahlen ohne eindeutige Beschriftung (sind das Standardfehler des Mittelwerts oder Standardabweichungen innerhalb von Gruppen oder was?)
quelle
Irene Stratton und ihre Kollegin haben einen kurzen Artikel über eine eng verwandte Frage veröffentlicht:
Stratton IM, Neil A. So stellen Sie sicher, dass Ihr Artikel vom statistischen Gutachter abgelehnt wird . Diabetische Medizin 2005; 22 (4): 371 & ndash; 373.
quelle
Der zur Generierung der simulierten Ergebnisse verwendete Code wird nicht bereitgestellt. Nachdem der Code angefordert wurde, sind zusätzliche Arbeiten erforderlich, damit er in einem vom Schiedsrichter erstellten Datensatz ausgeführt werden kann.
quelle
Plagiat (theoretisch oder methodisch). Meine erste Überprüfung betraf in der Tat ein Papier, in dem viele nicht referenzierte Texte aus einem vor 10 Jahren veröffentlichten, etablierten methodologischen Papier kopiert / eingefügt wurden.
Ich habe gerade ein paar interessante Artikel zu diesem Thema gefunden: Autorenschaft und Plagiat in der Wissenschaft .
Ebenso empfinde ich die Fälschung (von Daten oder Ergebnissen) als die schlimmste von allen.
quelle
Wenn wir die Autoren darum bitten
und dass die Autoren in Fall (1) nicht wirklich antworten oder dass die belasteten Ergebnisse in (2) aus der MS verschwinden.
quelle
Verwirrende p-Werte und Effektgröße (dh die Angabe, dass mein Effekt groß ist, weil ich einen wirklich winzigen p-Wert habe).
Etwas anders als Stephans Antwort , Effektgrößen auszuschließen, aber p-Werte anzugeben. Ich bin damit einverstanden, dass Sie beide geben sollten (und hoffentlich den Unterschied verstehen!)
quelle
Ohne Effektgrößen.
Ping überall in der Forschung (ich muss meinen Lieblingsprofessor für die Schule für diese Linie gutschreiben).
Geben Sie eine absurde Anzahl von Ziffern (Männer haben 3.102019 Pfund mehr zugenommen als Frauen)
Ohne Seitenzahlen (was das Überprüfen erschwert)
Falsche Zahlen und Tabellen
(wie bereits erwähnt - schrittweise und Kategorisierung stetiger Variablen)
quelle
Wenn sie ihre Analyse nicht ausreichend erklären und / oder einfache Fehler enthalten, die es schwierig machen, herauszufinden, was tatsächlich getan wurde. Dies beinhaltet oft das Herumwerfen einer Menge Jargon zur Erklärung, was mehrdeutiger ist, als der Autor zu erkennen scheint und auch missbraucht werden kann.
quelle
Die Verwendung der Kausalsprache zur Beschreibung von Assoziationen in Beobachtungsdaten, wenn Variablen ausgelassen werden, ist mit ziemlicher Sicherheit ein ernstes Problem.
quelle
Wenn Autoren den einen statistischen Test verwenden, den sie kennen (in meinem Fachgebiet normalerweise ein T-Test oder eine ANOVA), ad infinitum, unabhängig davon, ob er angemessen ist. Ich habe kürzlich einen Artikel gelesen, in dem die Autoren ein Dutzend verschiedener Behandlungsgruppen vergleichen wollten. Deshalb hatten sie für jedes mögliche Behandlungspaar einen T-Test mit zwei Stichproben durchgeführt ...
quelle
Neue Wörter für die vorhandenen Konzepte finden oder die vorhandenen Begriffe verwenden, um etwas anderes zu bezeichnen.
Einige der bestehenden Terminologiedifferenzen haben sich in der Literatur längst niedergeschlagen: Längsschnittdaten in der Biostatistik vs. Paneldaten in der Ökonometrie; Ursache- und Wirkungsindikatoren in der Soziologie vs. formative und reflektierende Indikatoren in der Psychologie; usw. Ich hasse sie immer noch, aber Sie können zumindest ein paar tausend Verweise auf jeden von ihnen in ihrer jeweiligen Literatur finden. Das jüngste ist diese ganze Reihe von Arbeiten über gerichtete azyklische Graphen in der Kausalliteratur: Die meisten, wenn nicht alle, der darin enthaltenen Theorie der Identifizierung und Schätzung wurden in den 1950er Jahren von Ökonomen unter dem Namen simultaner Gleichungen entwickelt.
Der Begriff, der eine doppelte, wenn nicht dreifache Bedeutung hat, ist "robust", und die verschiedenen Bedeutungen sind oft widersprüchlich. "Robuste" Standardfehler sind bei weitem nicht robust. Darüber hinaus sind sie bis auf die angenommene Abweichung vom Modell unempfindlich und weisen häufig eine schlechte Leistung bei kleinen Stichproben auf. Die Standardfehler von White sind nicht robust gegenüber seriellen oder Cluster-Korrelationen. "robuste" Standardfehler in SEM sind nicht robust gegen Fehlspezifikationen der Modellstruktur (weggelassene Pfade oder Variablen). Genau wie bei der Idee des Nullhypothesen-Signifikanztests ist es unmöglich, mit einem Finger auf irgendjemanden zu zeigen und zu sagen: "Sie sind dafür verantwortlich, mehrere Generationen von Forschern zu verwirren, wenn Sie dieses Konzept prägen, das nicht wirklich für seinen Namen steht."
quelle
gllamm
, das Ihre Daten als mehrstufige / hierarchische Daten betrachtet, aber die meisten anderen Pakete würden mehrere Messungen als Variablen / Spalten und Stichproben als Beobachtungen / Zeilen betrachten.Keine Berücksichtigung fehlender Daten.
In vielen praktischen Anwendungen werden Daten verwendet, für die zumindest einige Werte fehlen. Dies ist sicherlich sehr wahr in der Epidemiologie. Fehlende Daten stellen viele statistische Methoden vor Probleme - einschließlich linearer Modelle. Fehlende Daten bei linearen Modellen werden häufig durch Löschen von Fällen mit fehlenden Daten zu Kovariaten behoben. Dies ist ein Problem, es sei denn, Daten fehlen unter der Annahme, dass Daten völlig zufällig fehlen (MCAR).
Vor vielleicht 10 Jahren war es vernünftig, Ergebnisse von linearen Modellen ohne weitere Berücksichtigung von Fehlzeiten zu veröffentlichen. Dafür bin ich sicher schuldig. Sehr gute Ratschläge für den Umgang mit fehlenden Daten mit multipler Imputation sind inzwischen ebenso verfügbar wie statistische Pakete / Modelle / Bibliotheken / etc. geeignetere Analysen unter vernünftigeren Annahmen zu ermöglichen, wenn ein Mangel vorliegt.
quelle
Melden von Effekten, die sich der Signifikanz näherten (z. B. p <.10) und dann darüber schrieben, als hätten sie eine Signifikanz auf einer strengeren und akzeptableren Ebene erreicht Eine gut etablierte Analysestrategie nehmen und sie so präsentieren, als hätte noch niemand daran gedacht, sie zu verwenden. Vielleicht qualifiziert sich dies als Plagiat bis zum n-ten Grad.
quelle
Ich empfehle die folgenden zwei Artikel:
Martin Bland:
Wie man den statistischen Schiedsrichter verärgert
Dies basiert auf einer Reihe von Gesprächen, die Martin Bland zusammen mit Daten von anderen statistischen Schiedsrichtern gehalten hat („eine Convenience-Stichprobe mit einer geringen Rücklaufquote“). Es endet mit einer 11-Punkte-Liste mit "Wie kann ich den statistischen Schiedsrichter stören?".
Stian Lydersen:
Statistischer Überblick: Häufig gestellte Kommentare In
diesem kürzlich erschienenen Artikel (veröffentlicht 2014/2015) sind die 14 häufigsten Kommentare des Autors aufgeführt. 200 statistische Überprüfungen von wissenschaftlichen Artikeln (in einer bestimmten Zeitschrift). Jeder Kommentar enthält eine kurze Erläuterung des Problems und Anweisungen zur ordnungsgemäßen Durchführung der Analyse / Berichterstellung. Die Liste der zitierten Referenzen ist eine Fundgrube interessanter Arbeiten.
quelle
Am meisten (und am häufigsten) ärgert mich die "Validierung", die auf Verallgemeinerungsfehler von Vorhersagemodellen abzielt, bei denen die Testdaten nicht unabhängig sind (z. B. typischerweise mehrere Messungen pro Patient in den Daten, Messungen außerhalb des Bootstraps oder keine Aufteilung der Kreuzvalidierung) Patienten ).
Noch ärgerlicher sind Arbeiten, die solche fehlerhaften Kreuzvalidierungsergebnisse liefern, sowie ein unabhängiges Testset, das die überoptimistische Tendenz der Kreuzvalidierung zeigt, aber nicht ein einziges Wort darüber, dass das Design der Kreuzvalidierung falsch ist ...
(Ich würde mich sehr freuen, wenn die gleichen Daten vorliegen würden. "Wir wissen, dass die Kreuzvalidierung Patienten aufteilen sollte, aber wir stecken in einer Software, die dies nicht zulässt. Deshalb haben wir zusätzlich eine wirklich unabhängige Gruppe von Testpatienten getestet ")
(Mir ist auch bewusst, dass Bootstrapping = Resampling mit Ersetzung in der Regel besser ist als Kreuzvalidierung = Resampling ohne Ersetzung. Wir haben jedoch für spektroskopische Daten (simulierte Spektren und leicht künstliche Modelleinstellungen, aber reale Spektren) festgestellt, dass die Kreuzvalidierung wiederholt / iteriert wurde und nicht -of-bootstrap hatte eine ähnliche allgemeine Unsicherheit, oob hatte mehr Voreingenommenheit, aber weniger Varianz - zum Umrechnen betrachte ich dies aus einer sehr pragmatischen Perspektive: Die wiederholte Kreuzvalidierung im Vergleich zu Out-of-Bootstrap spielt keine Rolle, solange es nicht so viele Papiere gibt aufgrund der begrenzten Stichprobengröße weder patientenseitig aufgeteilt noch zufällige Unsicherheiten melden / diskutieren / erwähnen.)
Abgesehen davon, dass dies falsch ist, hat dies auch den Nebeneffekt, dass Menschen, die eine ordnungsgemäße Validierung durchführen, häufig verteidigen müssen, warum ihre Ergebnisse so viel schlechter sind als all diese anderen Ergebnisse in der Literatur.
quelle
Verwenden von "Daten" im Singularsinn. Daten sind, sind sie nie.
quelle
Für mich ist es bei weitem so, eine Ursache ohne eine angemessene Kausalanalyse zuzuschreiben oder wenn es einen falschen Kausalzusammenhang gibt.
Ich hasse es auch, wenn Null darauf geachtet wird, wie mit fehlenden Daten umgegangen wird. Ich sehe auch so viele Artikel, in denen die Autoren einfach eine vollständige Fallanalyse durchführen und nicht erwähnen, ob die Ergebnisse für die Bevölkerung mit fehlenden Werten verallgemeinerbar sind oder nicht oder wie sich die Bevölkerung mit fehlenden Werten systematisch von der Bevölkerung mit vollständigen Daten unterscheiden könnte.
quelle
Verwenden Sie Microsoft Word anstelle von LaTeX.
quelle