Behandlung von Ausreißern durch Kurtosis

10

Ich habe mich gefragt, ob mir jemand mit Informationen über Kurtosis helfen könnte (dh gibt es eine Möglichkeit, Ihre Daten zu transformieren, um sie zu reduzieren?)

Ich habe einen Fragebogendatensatz mit einer großen Anzahl von Fällen und Variablen. Für einige meiner Variablen zeigen die Daten ziemlich hohe Kurtosis-Werte (dh eine leptokurtische Verteilung), die sich aus der Tatsache ergibt, dass viele der Teilnehmer genau die gleiche Punktzahl für die Variable angegeben haben. Ich habe eine besonders große Stichprobengröße, daher sollten Verstöße gegen die Normalität nach dem zentralen Grenzwertsatz immer noch in Ordnung sein.

Das Problem ist jedoch die Tatsache, dass die besonders hohen Kurtosis-Werte eine Reihe von univariaten Ausreißern in meinem Datensatz erzeugen. Selbst wenn ich die Daten transformiere oder die Ausreißer entferne / anpasse, bedeutet das hohe Maß an Kurtosis, dass die nächst extremeren Werte automatisch zu Ausreißern werden. Ich möchte verwenden (Diskriminanzfunktionsanalyse). DFA soll gegenüber Abweichungen von der Normalität robust sein, vorausgesetzt, der Verstoß wird durch Schiefe und nicht durch Ausreißer verursacht. Darüber hinaus soll DFA auch besonders von Ausreißern in den Daten beeinflusst werden (Tabachnick & Fidel).

Irgendwelche Ideen, wie man das umgehen kann? (Mein erster Gedanke war eine Möglichkeit, die Kurtosis zu kontrollieren, aber ist es nicht gut, wenn die meisten meiner Stichproben ähnliche Bewertungen abgeben?)

Kyle Brown
quelle

Antworten:

8

Der offensichtliche "gesunde Menschenverstand" zur Lösung Ihres Problems ist:

  1. Holen Sie sich die Schlussfolgerung mit dem vollständigen Datensatz. dh welche Ergebnisse werden Sie erklären, wenn Sie Zwischenberechnungen ignorieren?
  2. Holen Sie sich die Schlussfolgerung anhand des Datensatzes, bei dem die "Ausreißer" entfernt wurden. dh welche Ergebnisse werden Sie erklären, wenn Sie Zwischenberechnungen ignorieren?
  3. Vergleichen Sie Schritt 2 mit Schritt 1
  4. Wenn es keinen Unterschied gibt, vergessen Sie, dass Sie sogar ein Problem hatten. Ausreißer sind für Ihre Schlussfolgerung irrelevant . Die Ausreißer können andere Schlussfolgerungen beeinflussen, die möglicherweise anhand dieser Daten gezogen wurden. Dies ist jedoch für Ihre Arbeit irrelevant. Es ist das Problem eines anderen.
  5. Wenn es einen Unterschied gibt, dann haben Sie im Grunde eine Frage des "Vertrauens". Sind diese "Ausreißer" in dem Sinne real, dass sie wirklich etwas über Ihre Analyse darstellen? Oder sind die "Ausreißer" insofern schlecht, als sie aus einer "kontaminierten Quelle" stammen?

In Situation 5 haben Sie im Grunde genommen einen Fall, in dem das "Modell", mit dem Sie die "Bevölkerung" beschrieben haben, unvollständig ist - es gibt Details, die nicht spezifiziert wurden, aber für die Schlussfolgerungen von Bedeutung sind. Es gibt zwei Möglichkeiten, dies zu beheben, die den beiden "Vertrauens" -Szenarien entsprechen:

  1. P(D|θ)P(D|θ)=P(λ|θ)P(D|θ,λ)dλ
  2. P(D|θ)P(D|θ)=G(D|θ)u+B(D|θ)(1u)

Es kann gezeigt werden, dass die meisten "Standard" -Verfahren Annäherungen an diese Art von Modellen sind. Am offensichtlichsten ist die Betrachtung von Fall 1, in dem die Varianz über die Beobachtungen hinweg als konstant angenommen wurde. Wenn Sie diese Annahme in eine Verteilung lockern, erhalten Sie eine Mischungsverteilung. Dies ist die Verbindung zwischen "normalen" und "t" Verteilungen. Die Normale hat eine feste Varianz, während das "t" über verschiedene Varianzen mischt, die Menge des "Mischens" von den Freiheitsgraden abhängt. Hoher DF bedeutet geringes Mischen (Ausreißer sind unwahrscheinlich), niedriger DF bedeutet hohes Mischen (Ausreißer sind wahrscheinlich). Tatsächlich könnten Sie Fall 2 als Sonderfall von Fall 1 betrachten, in dem die "guten" Beobachtungen normal und die "schlechten" Beobachtungen Cauchy sind (t mit 1 DF).

Wahrscheinlichkeitslogik
quelle
Was für eine ausgezeichnete Antwort, @probabilityislogic
Peter Flom - Reinstate Monica
Nur eine Klarstellung: Eine optimale Klassifizierung erfordert die Kenntnis der tatsächlichen multivariaten Verteilungen. Wenn Sie diese Verteilungen gut abschätzen können, ist die resultierende Klassifizierungsfunktion nahezu optimal. Ausreißer (wie durch Kurtosis angezeigt) sind in der Tat problematisch, da es in der Region keine kleinen Daten gibt, mit denen die Dichte geschätzt werden kann. Bei multivariaten Daten trägt auch der Fluch der Dimensionalität zu diesem Problem bei.
Peter Westfall