Ich bin auf den Begriff Inlier in der LOF-Kennzahl (Local Outlier Factor) gestoßen. Ich bin mit dem Begriff Ausreißer vertraut (im Grunde genommen Liers - Instanzen, die sich nicht wie die übrigen Instanzen verhalten).
Was bedeutet "Lieferanten" im Zusammenhang mit der Erkennung von Anomalien? und wie hängt es mit (anders als) Ausreißern zusammen?
residuals
outliers
anomaly-detection
Anton.P
quelle
quelle
Antworten:
Dies ist ein Bereich, in dem die Terminologie etwas inkonsistent ist, was den unglücklichen Effekt hat, dass einige statistische Diskussionen verwirrt werden. Das Konzept eines " Inlier ""wird im Allgemeinen verwendet, um sich auf einen fehlerhaften Datenwert zu beziehen (dh einem Messfehler zu unterliegen), der sich jedoch im" Inneren "der Verteilung der korrekt gemessenen Werte befindet. Nach dieser Definition hat der Inlier zwei Aspekte :. ) es befindet sich im Inneren der relevanten Werteverteilung und (2) es ist ein fehlerhafter Wert. Im Gegensatz dazu wird der entsprechende Begriff eines "Ausreißers" normalerweise verwendet, um sich auf einen Datenwert zu beziehen, der weit in den Endpunkten des Wertes liegt Verteilung, jedoch ohne einen Definitionsaspekt unter der Annahme, dass es sich um einen Fehler handelt. Diese Terminologie führt zu einer unglücklichen Inkonsistenz, bei der ein "Ausreißer" ein fehlerhafter Datenpunkt ist (per Definition), ein "Ausreißer" jedoch nicht unbedingt ein fehlerhafter Datenpunkt ist. unter dieser Terminologie die Vereinigung von "Lieferanten" und "Ausreißern"entspricht weder allen Daten noch allen fehlerhaften Daten.
Umgang mit Ausreißern: Ich habe hier und hier in anderen Fragen den Umgang mit Ausreißern erörtert , aber der Einfachheit halber werde ich einige dieser Bemerkungen hier wiederholen. Ausreißer sind Punkte, die von der Masse anderer Punkte in einer Verteilung entfernt sind, und die Diagnose eines "Ausreißers" erfolgt durch Vergleich des Datenpunkts mit einer angenommenen Verteilungsform. Obwohl Ausreißer gelegentlich durch Messfehler verursacht werden können, kann die Diagnose von Ausreißern auch dann erfolgen, wenn die Daten einer Verteilung mit hoher Kurtosis (dh Fettschwänzen) folgen, der Analytiker die Datenpunkte jedoch mit einer angenommenen Verteilungsform mit niedriger Kurtosis vergleicht (z. die Normalverteilung).
Das Markieren von "Ausreißern" in Ausreißertests bedeutet wirklich nur, dass die von Ihnen verwendete Modellverteilung nicht fett genug ist, um die beobachteten Daten genau darzustellen. Dies kann daran liegen, dass einige Daten Messfehler enthalten, oder daran, dass sie nur aus einer Verteilung mit fetten Schwänzen stammen. Sofern nicht Grund zu der Annahme besteht, dass eine Abweichung von der angenommenen Modellform einen Beweis für einen Messfehler darstellt (der eine theoretische Grundlage für die Verteilungsannahme erfordern würde), bedeutet das Vorhandensein von Ausreißern im Allgemeinen, dass Sie Ihr Modell ändern sollten, um eine Verteilung mit dickerem Wert zu verwenden Schwänze. Es ist von Natur aus schwierig, zwischen Messfehlern und hoher Kurtosis zu unterscheiden, die Teil der zugrunde liegenden Verteilung sind.
Umgang mit Lieferanten (was im Allgemeinen bedeutet, dass sie nicht behandelt werden): Wenn Sie nicht über eine externe Informationsquelle verfügen, die auf Messfehler hinweist, ist es im Wesentlichen unmöglich, "Lieferanten" zu identifizieren. Per Definition sind dies Datenpunkte, die sich im "Inneren" der Verteilung befinden, wo die meisten anderen Daten vorkommen. Daher wird es nicht durch Tests erkannt, die nach Daten suchen, die eine "Aberation" von den anderen Datenpunkten darstellen. (In einigen Fällen können Sie "Lieferanten" erkennen, die sich im Inneren einer Verteilung zu befinden scheinen, aber tatsächlich "Ausreißer" sind, wenn sie in Bezug auf eine komplexere Darstellung der Verteilung betrachtet werden. In diesem Fall ist der Punkt tatsächlich ein Ausreißer.
In einigen seltenen Fällen verfügen Sie möglicherweise über eine externe Informationsquelle, die eine Teilmenge Ihrer Daten als Messfehler ausweist (z. B. wenn Sie eine große Umfrage durchführen und feststellen, dass einer Ihrer Vermessungsingenieure gerade ihre Daten zusammengestellt hat ). In diesem Fall sind alle Datenpunkte in dieser Teilmenge, die sich im Inneren der Verteilung befinden, "Lieferanten" und über externe Informationen als Messfehler bekannt. In diesem Fall würden Sie im Allgemeinen alle Daten entfernen, von denen bekannt ist, dass sie fehlerhaft sind, selbst wenn sich einige davon auf "Lieferanten" befinden, die sich im Inneren der Distribution befinden, wo Sie dies erwarten würden. Der Punkt hier ist, dass ein Datenpunkt fehlerhaft sein kann, selbst wenn er sich nicht in den Endpunkten der Verteilung befindet.
quelle