Unterschied zwischen Anomalie und Ausreißer

13

Was ist der Unterschied zwischen Outlier und Anomaly im Kontext des maschinellen Lernens? Meines Wissens beziehen sich beide auf dasselbe.

user3282512
quelle
3
Wo wird aus Neugier in der Literatur eine solche Unterscheidung getroffen? Ich hatte den Eindruck, dass "Ausreißer" keine formale Definition haben, abgesehen von einer hohen Hebelwirkung und Beobachtungen mit hohem Einfluss. Einfluss und Macht zu tun haben mathematische Definitionen, aber wenn man bedenkt , etwas „hoch“ ist willkürlich. Es scheint, als würden willkürliche Wörter ausgetauscht.
AdamO
Menschen, die das Wort "Inlier" verwenden, unterscheiden implizit zwischen "Anomalie" und "Ausreißer", weil ein Inlier eine Art von Anomalie ist. Da weder "Ausreißer" noch "Anomalie" bestimmte, allgemein verständliche technische Definitionen haben, sollten wir erwarten, dass diese Frage mehrere Antworten hat, die sich (zumindest geringfügig) voneinander unterscheiden.
whuber

Antworten:

9

Die beiden Begriffe sind Synonyme gemäß:

Aggarwal, Charu C. Ausreißeranalyse. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Zitat von Seite 1:

Ausreißer werden in der Data Mining- und Statistikliteratur auch als Anomalien, Diskordanzen, Abweichungen oder Anomalien bezeichnet .

Fett gedruckter Text ist nicht Teil des Originaltexts.

Das vom Autor kostenlos zum Download zur Verfügung gestellte PDF des Buches finden Sie hier.

tomas
quelle
Die Tatsache, dass "Ausreißer" als "Anomalien" bezeichnet werden, bedeutet nicht , dass sie synonym sind. "Hunde" werden manchmal auch als "Tiere" bezeichnet. Ich habe versucht, dies in dieser Antwort näher zu erläutern (ich konnte es hier nicht posten, da die Frage geschützt ist).
Marco13,
9

Eine augenzwinkernde Antwort:

Ausreißer: Ein Wert, den Sie vorhersehbar in Ihren Daten finden und der angibt, dass Ihr Modell nicht ordnungsgemäß funktioniert

Anomalie: Ein Wert, der trotz aller Widrigkeiten in Ihren Daten anzeigt, dass Ihr Modell ordnungsgemäß funktioniert

Eine ernstere, weniger kryptische Antwort:

Das Konzept der Ausreißer beginnt mit der Erstellung eines Modells, das Annahmen über die Daten trifft. Ausreißer sind häufig Indikatoren dafür, dass das Modell die Daten nicht richtig beschreibt, und daher sollten wir die Ergebnisse unseres Modells oder die Qualität unserer Daten in Frage stellen.

Das Konzept von Anomalien beginnt außerhalb der theoretischen Welt und innerhalb der angewandten Welt: Wir möchten in unseren Daten nach ungewöhnlichem Verhalten suchen, manchmal motiviert durch die Tatsache, dass wir daran interessiert sind, ein Verhalten zu finden, das jemand zu verbergen versucht (wie ein Virus in einem Virus) Email). Das Problem ist, dass wir nicht genau wissen, wonach wir suchen, da die Leute versuchen, ihre Handlungen zu verbergen. Wir nehmen also eine Reihe von "guten" Daten und stellen fest, dass alles, was in unserem neuen Dataset nicht "gut" aussieht, eine Anomalie ist und es wert ist, dass wir uns die Zeit nehmen, es genauer anzusehen. Wenn Sie nach Anomalien suchen, müssen Sie häufig nach Ausreißern in Ihrem neuen Datensatz suchen. Beachten Sie jedoch, dass diese Werte in Ihrem neuen Datensatz sehr häufig vorkommen können, obwohl sie in Ihrem alten Datensatz selten vorkommen!

Zusammenfassend sind sich die beiden Konzepte in der Statistik sehr ähnlich (dh ungewöhnliche Werte für Ihr angepasstes Modell), kommen aber aus unterschiedlichen Blickwinkeln auf die Idee. Wenn wir über Ausreißer sprechen, meinen wir normalerweise einen ungewöhnlichen Datenpunkt in den Daten, die für unser Modell verwendet werden , wobei eine Anomalie normalerweise als ungewöhnlicher Datenpunkt in einem Datensatz außerhalb der Daten gemeint ist, die für unser Modell verwendet werden .

Hinweis: Diese Antwort basiert darauf, wie ich die beiden häufig verwendeten Begriffe und nicht die formalen Definitionen gesehen habe. Benutzererfahrungen können abweichen.

Cliff AB
quelle
6

Eine Anomalie ist ein Ergebnis, das aufgrund der Basisverteilung nicht erklärt werden kann (eine Unmöglichkeit, wenn unsere Annahmen richtig sind). Ein Ausreißer ist aufgrund der Basisverteilung ein unwahrscheinliches Ereignis (eine Unwahrscheinlichkeit).

H. Iqbal
quelle
7
Eine Quellenangabe für die Definitionen und das Beispiel würde die Antwort stark verbessern.
Tim
4
Soweit ich weiß, sind sie Synonyme. Also @H. Iqbal muss wirklich die Quelle zitieren und alle Leser müssen dann die Autorität von sayd source bewerten
Jacques Wainer
2
Unmöglichkeit scheint P (X = ANOMALY) = 0 (dh genau 0) zu implizieren. Mein Verständnis von Anomalieerkennung ist, dass der Forscher möglicherweise an Ereignissen interessiert ist, die eine positive Wahrscheinlichkeit haben.
Cliff AB
4

Die Begriffe werden weitgehend austauschbar verwendet. "Ausreißer" bezieht sich auf etwas, das außerhalb der Norm liegt - es ist also "anomal". Aber ich habe den Eindruck, dass "Ausreißer" normalerweise für sehr seltene Beobachtungen verwendet wird. In der Statistik würden Sie bei einer Normalverteilung drei Sigma als Ausreißer betrachten. Das sind 99,7% Ihrer Objekte, von denen erwartet wird, dass sie "normal" sind. "Anomaly" wird viel großzügiger verwendet. Wenn Sie plötzlich Millionen von Besuchern auf Ihrer Website haben, sind dies keine seltenen Besucher. Die plötzliche Zunahme der Besucher ist jedoch immer noch "anomal", während jeder einzelne Besucher kein "Ausreißer" ist.

Möglicherweise habe ich in diesem Artikel diese Unterschiede besprochen, aber ich kann momentan leider nicht darauf zugreifen.

Statistische Analyse und Data Mining, Band 5, Ausgabe 5, Oktober 2012, Seiten 363–387 Eine Umfrage zur unbeaufsichtigten Erkennung von Ausreißern in hochdimensionalen numerischen Daten

Hat aufgehört - Anony-Mousse
quelle
1
Ich denke, Sie haben subtil auf den Unterschied zwischen Ausreißern und Anomalien hingewiesen. Ausreißer werden verwendet, um Daten zu beschreiben, die keinem allgemeinen Trend entsprechen, Anomalien beschreiben ungewöhnlichen Datenverkehr auf einem Server. 50% jk.
Cliff AB
2

Nur um das Wasser weiter zu trüben, impliziert eine klimatologische Anomalie nur den Unterschied zwischen Wert und Mittelwert oder eine Abweichung:

Der Begriff Temperaturanomalie bedeutet eine Abweichung von einem Referenzwert oder einem langfristigen Mittelwert. Eine positive Anomalie zeigt an, dass die beobachtete Temperatur wärmer als der Referenzwert war, während eine negative Anomalie anzeigt, dass die beobachtete Temperatur kühler als der Referenzwert war.

siehe zb

Das kann durchaus als außerhalb des maschinellen Lernens betrachtet werden, aber Leute, die an der Frage interessiert sind, könnten daran interessiert sein.

Nick Cox
quelle
1

(1,5)y=x(1,1)(5,5)(3,3.1)y=x

Eine Anomalie kann ein Datenpunkt sein oder auch ein allgemeiner Trend oder ein allgemeines Verhalten, das in Daten beobachtet wird, nachdem bereits ein Modell erstellt wurde oder ein Verständnis des Datenerzeugungsprozesses hergestellt wurde. Sie stoßen auf Anomalien, weil sich das System anders verhält, oder Sie suchen nach solchen Datenpunkten, weil Sie informiert werden möchten, wenn ein Ereignis eintritt, bei dem Ihr Modell ungültig ist. Möglicherweise möchten Sie ein anormales Verhalten in den Amplituden der Meereswellen beobachten, nicht weil Sie diese Datenpunkte wegwerfen und ein besseres Modell erstellen möchten, sondern weil Sie wissen möchten, wann ein Tsunami stattfinden könnte.

Semihcan Doken
quelle
2
Ich bin mit den meisten davon nicht einverstanden. Erstens kann der erste Satz Ihre Definition eines Ausreißers sein, wenn Sie möchten, aber es ist schwierig, sich mit vielen anderen Definitionen oder Verwendungen abzustimmen. Wenn die Daten (1, 1), (2, 2), (3, 3), (viel größer, viel größer) sind, wird der viel größere Punkt oft als Ausreißer beschrieben, aber es gibt kein Problem bei der Anpassung eines Modells. Sie mögen (und sollten) sich fragen, warum die Daten auf diese Weise übermittelt werden, aber das Anpassen eines Modells ist einfach. Im Allgemeinen gilt das Prinzip, dass ein Ausreißer vom Hauptteil der Daten getrennt werden kann, aber dennoch mit einem plausiblen Modell vereinbar ist.
Nick Cox
Zweitens, wenn die Implikation, dass Ausreißer weggelassen werden, genau das ist, was Sie tun sollten, dann (a) ist es oft problematisch zu sagen, welche Ausreißer (b) es gibt viele andere Lösungen. Der Thread stats.stackexchange.com/questions/78063/… reicht weiter als der Titel, um einige zu nennen.
Nick Cox
1
Wenn Sie meinem Link folgen, werden Sie feststellen, dass ich bereits ausführliche Informationen zu Ausreißern veröffentlicht habe. Es macht mir keinen Sinn, Ihre Antwort noch einmal zu lesen, wenn Sie nachträglich darüber nachdenken, Ausreißer beim Anpassen zu entfernen. Beim erneuten Lesen stelle ich außerdem fest, dass der erste Satz Ihres zweiten Absatzes die Idee enthält, dass eine Anomalie ein allgemeiner Trend oder ein allgemeines Verhalten sein kann. verstehe es nicht.
Nick Cox
1

Gute Frage. Die Google-Suche nach "Unterschied zwischen Ausreißer- und Anomalien-Website: .edu" zeigt jedoch, dass zwischen diesen beiden Begriffen kein theoretischer Unterschied besteht. Sie werden in der Literatur synonym verwendet.

Chandra
quelle