Angenommen, Sie haben einige Daten aus einem randomisierten Blockdesign mit 4 Wiederholungen und 23 Behandlungen erhalten. Nach einer ersten Überprüfung der Daten stellen Sie fest, dass bei 8 Behandlungen alle Wiederholungen identisch sind, was offensichtlich falsch ist. Nachdem Sie das Problem gemeldet haben, wird Ihnen mitgeteilt, dass es auf eine Verwirrung der für die Daten verantwortlichen Person zurückzuführen ist, die Ihnen später die "richtige Version" der Daten zusendet. Die korrigierte Version der Daten wäre ungefähr so:
Wert der Behandlungswiederholung A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597,275 Z 3 4833.246 Z 4 4199.098
Das erste, was meine Aufmerksamkeit in solchen Daten erregen würde, wäre die Tatsache, dass nur die acht Behandlungen, für die das Problem gemeldet wurde, keinen Dezimalbruch hatten (alle verbleibenden Behandlungen waren in Ordnung). Also würde ich beschließen, sie genauer zu betrachten und jede Beobachtung von ihrem Stichprobenmittelwert innerhalb der Behandlungen abzuziehen, um so etwas zu finden
Behandlungswiederholungswert Delta A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
Nachdem ich festgestellt habe, dass die Unterschiede symmetrisch zum Mittelwert sind, würde ich sofort die für das Projekt verantwortliche Person anrufen und das Problem melden. Natürlich würde ich auch die Arbeit an diesem Projekt aufgeben.
Obwohl die Beweise ziemlich überzeugend sind, wäre es gut, dem Bericht eine Wahrscheinlichkeit beizufügen, um eine Vorstellung davon zu geben, wie schlecht diese Daten aussehen. Ich hätte also an Folgendes gedacht und würde gerne wissen, ob meine Argumentation fehlerhaft ist:
Nehmen wir an, wenn die Daten legitim wären, wäre es vernünftig, eine Normalität für diese Art von Daten anzunehmen, basierend auf den Erfahrungen aus früheren Analysen dieser Art von Daten.
Die Ungleichung liegt einfach daran, dass ich den Schnittpunkt nicht entfernen möchte.
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Als solches wäre die Wahrscheinlichkeit von S:
Da es keinen eindeutigen Blockeffekt geben würde und die Daten aus einem randomisierten Experiment stammen würden, wäre es sinnvoll, eine statistische Unabhängigkeit anzunehmen. Nehmen wir an, dass von 8 verdächtigen Behandlungen 3 diese Symmetrie hatten. Unter der Annahme der Unabhängigkeit könnten wir dann die Wahrscheinlichkeit eines solchen Ereignisses (nennen wir es D) aus einer Binomialverteilung berechnen:
D: 3 von 8 Behandlungen weisen eine Symmetrie der Beobachtungen um den Probenmittelwert auf.
Ich bin kein Statistiker, daher würde ich gerne wissen, ob diese Argumentation fehlerhaft ist und ob Sie die Daten auch als betrügerisch melden würden.
Antworten:
Das ethische Problem ist hier von größter Bedeutung. Ich würde diesen Informationen zustimmen, wenn ich die Daten als sehr verdächtig betrachte und sie als solche melde. Ich würde niemals "Betrug" nennen, da dies nach Ermittlungen von anderen festgestellt werden muss und Sie in einigen Ländern für rechtliche Schritte oder deren Bedrohung offen sein könnten. Was das Anhängen einer Wahrscheinlichkeitsschätzung angeht, würde ich mich davon zurückziehen. Der Fall ist ohne ihn klar und nahezu jede Annahme oder Annäherung ist anfechtbar.
quelle