Welche umfassenden Methoden gibt es, um Betrug, Anomalien, Fudging usw. in wissenschaftlichen Werken von Dritten aufzuspüren? (Ich war durch die kürzliche Affäre mit Marc Hauser motiviert, dies zu erfragen .) Normalerweise wird für Wahl- und Rechnungslegungsbetrug eine Variante von Benfords Gesetz zitiert. Ich bin mir nicht sicher, wie dies zB angewendet werden könnte den Fall Marc Hauser , da nach dem Benfordschen Gesetz die Zahlen ungefähr logarithmisch sein müssen.
Nehmen wir als konkretes Beispiel an, ein Artikel zitiert die p-Werte für eine große Anzahl statistischer Tests. Könnte man diese umwandeln, um Einheitlichkeit zu protokollieren, und dann das Benford-Gesetz anwenden? Es scheint, als gäbe es bei diesem Ansatz alle möglichen Probleme ( z. B. könnten einige der Nullhypothesen zu Recht falsch sein, der statistische Code könnte nur annähernd korrekte p-Werte liefern, die Tests könnten nur einheitliche p-Werte liefern unter der Null asymptotisch usw.)
quelle
Antworten:
Tolle Frage!
Im wissenschaftlichen Kontext gibt es verschiedene Arten von problematischer Berichterstattung und problematischem Verhalten:
Häufige Beispiele für unangemessenes Verhalten sind:
Im Allgemeinen würde ich diese Inkompetenz annehmen mit allen drei Formen problematischen Verhaltens zusammenhängt. Ein Forscher, der nicht versteht, wie man gute Wissenschaft macht, aber ansonsten erfolgreich sein will, hat einen größeren Anreiz, seine Ergebnisse falsch darzustellen, und respektiert mit geringerer Wahrscheinlichkeit die Prinzipien der ethischen Datenanalyse.
Die obigen Unterscheidungen haben Auswirkungen auf die Erkennung von problematischem Verhalten. Wenn Sie beispielsweise feststellen, dass eine Reihe von gemeldeten Ergebnissen falsch ist, muss noch geprüft werden, ob die Ergebnisse auf Betrug, Fehler oder unangemessenes Verhalten zurückzuführen sind. Außerdem würde ich annehmen, dass verschiedene Formen unangemessenen Verhaltens weitaus häufiger sind als Betrug.
In Bezug auf das Erkennen von problematischem Verhalten denke ich, dass es sich größtenteils um eine Fähigkeit handelt, die aus der Erfahrung mit Daten , der Arbeit mit einem Thema und der Arbeit mit Daten stammt Forschern stammt. All diese Erfahrungen bestärken Sie in Ihren Erwartungen, wie Daten aussehen sollten. Daher beginnen große Abweichungen von den Erwartungen mit der Suche nach einer Erklärung. Durch die Erfahrung mit Forschern können Sie feststellen, welche Arten von unangemessenem Verhalten mehr oder weniger häufig vorkommen. In Kombination führt dies zur Generierung von Hypothesen. Wenn ich zum Beispiel einen Zeitschriftenartikel lese und mit den Ergebnissen überrascht bin, ist die Studie zu schwach, und die Art des Schreibens legt nahe, dass der Autor auf einen Punkt festgelegt ist. Ich gebe die Hypothese, dass die Ergebnisse möglicherweise nicht sein sollten Vertrauenswürdige.
Andere Ressourcen
quelle
Tatsächlich ist Benfords Gesetz eine unglaublich mächtige Methode. Dies liegt daran, dass die Häufigkeitsverteilung der ersten Ziffer nach Benford auf alle Arten von Datensätzen anwendbar ist, die in der realen oder natürlichen Welt vorkommen.
Sie haben Recht, dass Sie das Benford-Gesetz nur unter bestimmten Umständen anwenden können. Sie sagen, dass die Daten eine einheitliche Protokollverteilung haben müssen. Technisch gesehen ist das absolut richtig. Sie könnten die Anforderung jedoch viel einfacher und nachsichtiger beschreiben. Alles, was Sie brauchen, ist, dass der Datensatzbereich mindestens eine Größenordnung überschreitet. Sagen wir von 1 bis 9 oder 10 bis 99 oder 100 bis 999. Wenn es zwei Größenordnungen überschreitet, sind Sie im Geschäft. Und Benfords Gesetz sollte ziemlich hilfreich sein.
Das Schöne an Benfords Gesetz ist, dass es Ihnen dabei hilft, Ihre Ermittlungen sehr schnell auf die Nadel (n) im Heuhaufen von Daten einzuschränken. Sie suchen nach Anomalien, bei denen sich die Frequenz der ersten Ziffer stark von den Benford-Frequenzen unterscheidet. Sobald Sie feststellen, dass es zwei viele Sechser gibt, wenden Sie das Benfordsche Gesetz an, um sich nur auf die Sechser zu konzentrieren. Aber nehmen Sie es jetzt zu den ersten beiden Ziffern (60, 61, 62, 63, etc ...). Vielleicht finden Sie heraus, dass es viel mehr 63s gibt als von Benford vorgeschlagen (Sie würden das tun, indem Sie die Häufigkeit von Benford berechnen: log (1 + 1/63), die Ihnen einen Wert nahe 0% gibt). Sie verwenden also Benford für die ersten drei Ziffern. Wenn Sie herausfinden, dass es viel zu viele 632er gibt (oder was auch immer, wenn Sie die Frequenz von Benford berechnen: log (1 + 1/632)), als Sie erwartet haben, sind Sie wahrscheinlich auf dem richtigen Weg. Nicht alle Anomalien sind Betrug. Aber,
Wenn es sich bei dem Datensatz, den Marc Hauser manipuliert hat, um natürliche, nicht eingeschränkte Daten mit einem entsprechenden Bereich handelt, der breit genug ist, dann wäre das Benford-Gesetz ein ziemlich gutes Diagnosewerkzeug. Ich bin sicher, dass es auch andere gute Diagnosewerkzeuge gibt, die unwahrscheinliche Muster erkennen. Wenn Sie diese mit dem Benfordschen Gesetz kombinieren, hätten Sie die Marc Hauser-Affäre höchstwahrscheinlich effektiv untersuchen können (unter Berücksichtigung der genannten Datenanforderungen des Benfordschen Gesetzes).
Ich erkläre Benfords Gesetz ein bisschen mehr in dieser kurzen Präsentation, die Sie hier sehen können: http://www.slideshare.net/gaetanlion/benfords-law-4669483
quelle