Bei univariaten Ausreißertests (oder: Dixon Q versus Grubbs)

8

In (den meisten) der Literatur zur analytischen Chemie ist der Standardtest zum Erkennen von Ausreißern in univariaten Daten (z. B. eine Folge von Messungen einiger Parameter) der Q-Test von Dixon. Bei allen in den Lehrbüchern aufgeführten Verfahren müssen Sie aus den zu vergleichenden Daten stets eine bestimmte Menge mit einem Tabellenwert berechnen. Von Hand ist dies kein großes Problem; Ich habe jedoch vor, ein Computerprogramm für Dixon Q zu schreiben, und nur das Zwischenspeichern von Werten erscheint mir unelegant. Was mich zu meiner ersten Frage bringt:

  1. Wie werden die Tabellenwerte für Dixon Q generiert?

Jetzt habe ich mich bereits mit diesem Artikel befasst , aber ich habe das Gefühl, dass dies ein bisschen Betrug ist, da der Autor lediglich einen Spline erstellt, der die von Dixon generierten Tabellenwerte durchläuft. Ich habe das Gefühl, dass irgendwo eine spezielle Funktion (z. B. Fehlerfunktion oder unvollständiges Beta / Gamma) benötigt wird, aber zumindest habe ich Algorithmen für diese.

Nun zu meiner zweiten Frage: ISO scheint Grubbs 'Test heutzutage langsam gegenüber Dixon Q zu empfehlen, aber nach den Lehrbüchern zu urteilen, hat es sich noch nicht durchgesetzt. Dies war andererseits relativ einfach zu implementieren, da nur die Umkehrung der CDF von Student t berechnet wird. Nun zu meiner zweiten Frage:

  1. Warum sollte ich Grubbs anstelle von Dixon verwenden wollen?

In meinem Fall ist der Algorithmus "ordentlicher", aber ich vermute, dass es tiefere Gründe gibt. Kann es jemanden interessieren, mich aufzuklären?

JM ist kein Statistiker
quelle

Antworten:

13

Wirklich, diese Ansätze wurden seit langer Zeit nicht mehr aktiv entwickelt. Für univariate Ausreißer ist der optimale (effizienteste) Filter der Median +/- MAD oder noch besser (wenn Sie Zugriff auf R haben) der Median +/- Qn (Sie nehmen also nicht die zugrunde liegende Verteilung an symmetrisch sein), δ×δ×

Der Qn-Schätzer ist in der Paket-Robustbase implementiert.

Sehen:

Rousseeuw, PJ und Croux, C. (1993) Alternatives to the Median Absolute Deviation, Zeitschrift der American Statistical Association * 88 *, 1273-1283.

Antwort auf Kommentar:

Zwei Ebenen.

A) Philosophisch.

Sowohl der Dixon- als auch der Grub-Test können nur einen bestimmten Typ eines (isolierten, einzelnen) Ausreißers erkennen. In den letzten 20 bis 30 Jahren umfasste das Konzept der Ausreißer "jede Beobachtung, die vom Hauptteil der Daten abweicht". Ohne weitere Angabe der jeweiligen Abfahrt. Dieser charakterisierungsfreie Ansatz macht die Idee, Tests zur Erkennung von Ausreißern zu erstellen, ungültig. Die Betonung verlagerte sich auf das Konzept der Schätzer (ein klassisches Beispiel dafür ist der Median), die dort Werte beibehalten (dh unempfindlich sind), selbst für eine hohe Kontaminationsrate durch Ausreißer - ein solcher Schätzer wird dann als robust bezeichnet - und die Frage der Erkennung Ausreißer werden ungültig.

B) Schwäche,

Sie können sehen, dass die Grub- und Dixon-Tests leicht zusammenbrechen: Man kann leicht kontaminierte Daten generieren, die beide Tests wie ein Glück bestehen würden (dh ohne die Null zu brechen). Dies ist im Grubb-Test besonders offensichtlich, da Ausreißer den Mittelwert und die SD aufschlüsseln, die bei der Erstellung des Teststat verwendet wurden. Im Dixon ist dies weniger offensichtlich, bis man erfährt, dass Auftragsstatistiken auch für Ausreißer nicht robust sind.

Ich denke, Sie werden mehr Erklärungen für diese Tatsachen in Artikeln finden, die sich an das allgemeine nicht-statistische Publikum richten, wie dem oben zitierten (ich kann auch an das Fast-Mcd-Papier von Rousseeuw denken). Wenn Sie ein aktuelles Buch / Intro zur zuverlässigen Analyse konsultieren, werden Sie feststellen, dass weder Grubb noch Dixon erwähnt werden.

user603
quelle
Interessant ... Ich denke, analytische Chemiker sind sehr weit hinter der Zeit zurück! Hast du etwas dagegen, mir zu erzählen, wie beide diskreditiert wurden? Ich werde Ihre Referenz untersuchen und sehen, wie die Algorithmen für diese aussehen.
JM ist kein Statistiker
3
Ich sehe keinen Grund zu sagen, dass diese Tests diskreditiert wurden. Wenn Sie versuchen, einen einzelnen Ausreißer zu erkennen, wenn die Bevölkerungsverteilung (ohne den Ausreißer) normal ist. Tatsächlich erfüllt der Grubbs-Test einige Optimalitätseigenschaften. Es gibt immer Probleme mit Ausreißertests wie dem Maskierungseffekt, wenn mehrere Ausreißer vorhanden sind, aber das diskreditiert die Methoden nicht! Die Robustheitsmethoden verwenden alle Daten und gewichten die Ausreißer nach unten, damit die Ausreißer die Schätzung nicht übermäßig beeinflussen.
Michael R. Chernick
1
Wenn Sie mehr über Dixons Test erfahren möchten, lesen Sie meine anderen Beiträge auf dieser Website zu Fragen zu Ausreißern und meine Arbeit von 1982 "Über die Robustheit von Dixons Verhältnis-Test in kleinen Stichproben".
Michael R. Chernick
1
Ich denke, die Leute dürfen nicht glauben, dass ich ein Experte für Ausreißer bin, weil ich glaube, dass Dixons Test nicht diskreditiert ist. Ich denke, dass diejenigen, die den Test von Dixon für diskreditiert halten, wahrscheinlich nicht verstehen, worum es bei der Erkennung von Ausreißern und der robusten Schätzung geht.
Michael R. Chernick
1
@ user603 Ja. Der erste Satz in deinem Beitrag sieht so viel besser aus! Jetzt bin ich eher geneigt, auf Ihre vernünftige Argumentation zu hören. Dieser erste Satz hat mich so abgeschreckt, dass ich den Rest zuerst nicht gelesen habe.
Michael R. Chernick