Ich habe kürzlich einen Rezensenten-Kommentar von einer Journal-Einreichung erhalten, in der ich darum gebeten wurde
berichten, wie ich mit Ausreißern und Randgruppen umgegangen bin .
Ich hatte noch nichts von dem Begriff "Fringeliers" gehört und als ich googelte, gab es einige Artikel, aber keine präzise Definition. Daher dachte ich, es wäre gut, eine Frage wie diese zu haben, die klarstellen könnte, was "Fringeliers" sind, und eine Definition sowohl für mich als auch für zukünftige Leute liefert, die dieselbe Frage stellen.
terminology
outliers
Jeromy Anglim
quelle
quelle
Antworten:
Fringeliers scheinen als weniger extreme Ausreißer definiert zu sein. Dh Daten am Rande der Verteilung.
Wenn Sie beispielsweise einen Grenzwert für Ausreißer definieren, können Randwerte so operationalisiert werden, dass sie nahe an beiden Seiten des Grenzwerts liegen (z. B. bei einem Grenzwert von 3 SD zwischen 2,7 und 3,3 SD vom Mittelwert).
Osborne und Overbay (2008) schreiben Folgendes:
Und führen Sie den Begriff "fringelier" von Wainer (1976) ein.
Einige Beispiele:
In einigen Kontexten schlagen Ausreißer vor, dass die Daten ungültig sind. Wenn beispielsweise die Körpergröße eines Mannes als 8 Fuß groß angegeben wird (z. B. 6,5 SD über dem Mittelwert), ist dies wahrscheinlich eine ungültige Messung. Im Gegensatz dazu kann dies eine gültige Messung sein, wenn die Körpergröße einer Person als 6 Fuß 10 Zoll groß (3 SD über dem Mittelwert - ein Rand) angegeben wird. Dies kann jedoch auch auf ein Problem bei der Messung hinweisen, da dies ziemlich selten ist. Der Punkt ist, dass die Bestimmung, ob ein Wert ungültig ist, umso schwieriger wird, je weniger extrem der Wert wird.
In anderen Zusammenhängen sind Ausreißer ein Problem, da sie einen übermäßigen Einfluss auf Parameterschätzungen haben, insbesondere wenn statistische Standardmethoden mit kleinsten Quadraten usw. verwendet werden. Daher können Fringeliers größere Auswirkungen haben als einige der meisten Fälle, aber Entscheidungen darüber, ob die Daten für Modellierungszwecke aufbewahrt werden sollen oder nicht, sind möglicherweise weniger klar.
Verweise
quelle
Ich würde denken, dass Sie die Häufigkeit der Randstreifen für die Datenpunkte berücksichtigen müssen, die sich unterhalb des Grenzwerts befinden. Wenn der Anteil von Fringeliers an "gültigen" Daten hoch ist (basierend auf einigen Faktoren), ist der Cutoff möglicherweise unrealistisch definiert. Stellen Sie sich vor, Sie sind in einem Zelt und die einzigen Bären in der Gegend sind 3 Meilen entfernt. aber es gibt 500 von ihnen! :) :)
quelle