Würden Sie diese Daten als betrügerisch kennzeichnen?

Angenommen, Sie haben einige Daten aus einem randomisierten Blockdesign mit 4 Wiederholungen und 23 Behandlungen erhalten. Nach einer ersten Überprüfung der Daten stellen Sie fest, dass bei 8 Behandlungen alle Wiederholungen identisch sind, was offensichtlich falsch ist. Nachdem Sie das Problem gemeldet haben, wird Ihnen mitgeteilt, dass es auf eine Verwirrung der für die Daten verantwortlichen Person zurückzuführen ist, die Ihnen später die "richtige Version" der Daten zusendet. Die korrigierte Version der Daten wäre ungefähr so:

Wert der Behandlungswiederholung 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597,275
   Z 3 4833.246
   Z 4 4199.098

Das erste, was meine Aufmerksamkeit in solchen Daten erregen würde, wäre die Tatsache, dass nur die acht Behandlungen, für die das Problem gemeldet wurde, keinen Dezimalbruch hatten (alle verbleibenden Behandlungen waren in Ordnung). Also würde ich beschließen, sie genauer zu betrachten und jede Beobachtung von ihrem Stichprobenmittelwert innerhalb der Behandlungen abzuziehen, um so etwas zu finden

Behandlungswiederholungswert Delta
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

Nachdem ich festgestellt habe, dass die Unterschiede symmetrisch zum Mittelwert sind, würde ich sofort die für das Projekt verantwortliche Person anrufen und das Problem melden. Natürlich würde ich auch die Arbeit an diesem Projekt aufgeben.

Obwohl die Beweise ziemlich überzeugend sind, wäre es gut, dem Bericht eine Wahrscheinlichkeit beizufügen, um eine Vorstellung davon zu geben, wie schlecht diese Daten aussehen. Ich hätte also an Folgendes gedacht und würde gerne wissen, ob meine Argumentation fehlerhaft ist:

Nehmen wir an, wenn die Daten legitim wären, wäre es vernünftig, eine Normalität für diese Art von Daten anzunehmen, basierend auf den Erfahrungen aus früheren Analysen dieser Art von Daten.

X_{i} \sim N (μ_{X}, σ_{X}); i = 1, 2, 3, 4

$X_i\sim N(\mu_X,~\sigma_X); ~~~i = 1, 2, 3, 4$

A : - 0.5 < X_{1} + X_{2} - X_{3} - X_{4} < 0.5

$A: -0.5 < X_1 + X_2 - X_3 - X_4 < 0.5$

P (S) \leq 3 * P (A)

$P(S) \leq 3 * P(A)$

Die Ungleichung liegt einfach daran, dass ich den Schnittpunkt nicht entfernen möchte.

Y = X_{1} + X_{2} - X_{3} - X_{4}

$Y = X_1 + X_2 - X_3 - X_4$

Y \sim N (0, 2 * σ_{X})

$Y\sim N(0,~2*\sigma_X)$

$\sigma_X$

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Als solches wäre die Wahrscheinlichkeit von S:

P (S) \leq 0.001709752

$P(S) \leq 0.001709752$

Da es keinen eindeutigen Blockeffekt geben würde und die Daten aus einem randomisierten Experiment stammen würden, wäre es sinnvoll, eine statistische Unabhängigkeit anzunehmen. Nehmen wir an, dass von 8 verdächtigen Behandlungen 3 diese Symmetrie hatten. Unter der Annahme der Unabhängigkeit könnten wir dann die Wahrscheinlichkeit eines solchen Ereignisses (nennen wir es D) aus einer Binomialverteilung berechnen:

D: 3 von 8 Behandlungen weisen eine Symmetrie der Beobachtungen um den Probenmittelwert auf.

P (D) \leq (\binom{8}{3}) \cdot p^{3} (1 - p)^{5}

$P(D) \leq {8\choose3} \cdot p^3(1-p)^5$

P (D) \leq 2.7 \cdot 10^{- 7}

$P(D) \leq 2.7 \cdot 10^{-7}$

Ich bin kein Statistiker, daher würde ich gerne wissen, ob diese Argumentation fehlerhaft ist und ob Sie die Daten auch als betrügerisch melden würden.

probability anova dataset fraud Teo
quelle

Das ethische Problem ist hier von größter Bedeutung. Ich würde diesen Informationen zustimmen, wenn ich die Daten als sehr verdächtig betrachte und sie als solche melde. Ich würde niemals "Betrug" nennen, da dies nach Ermittlungen von anderen festgestellt werden muss und Sie in einigen Ländern für rechtliche Schritte oder deren Bedrohung offen sein könnten. Was das Anhängen einer Wahrscheinlichkeitsschätzung angeht, würde ich mich davon zurückziehen. Der Fall ist ohne ihn klar und nahezu jede Annahme oder Annäherung ist anfechtbar.

Nick Cox

Stimmen Sie Nick Cox voll und ganz zu. Beachten Sie, dass JEDES spezifische Datenmuster höchst unwahrscheinlich ist, sodass die Wahrscheinlichkeitsschätzung nur verwirren wird, was ansonsten ein völlig klarer und überzeugender Fall von unbrauchbaren Daten ist (ich würde diesen Begriff oder etwas Ähnliches eher als betrügerisch verwenden).

Radfahrer

Es ist sehr unwahrscheinlich, dass ein bestimmtes Muster zufällig auftritt, aber nicht alle werden gleichermaßen wahrscheinlich vom Menschen bewusst erzeugt. Da es kein universelles Modell dafür gibt, wie ein Mann solche Daten "erstellen" würde, macht die Wahrscheinlichkeitsberechnung nicht viel Sinn. Sie können jedoch eine grafische Darstellung der Symmetrie der Daten in Betracht ziehen. A zu Demonstrationszwecken B, um den Menschen ein Gefühl dafür zu geben, wie sehr dieser Fisch stinkt.

Bernhard

Sehr hilfreiche Antworten! Tatsächlich konnte ich ihre Absicht nicht nur anhand dieser Daten herausfinden. Das einzige, was zweifelsfrei wäre, ist, dass diese Daten unbrauchbar sind (mir hat dieser Begriff gefallen).

Teo

Würden Sie diese Daten als betrügerisch kennzeichnen?

Antworten: