Was ist der Unterschied zwischen Outlier und Anomaly im Kontext des maschinellen Lernens? Meines Wissens beziehen sich beide auf dasselbe.
outliers
terminology
anomaly-detection
user3282512
quelle
quelle
Antworten:
Die beiden Begriffe sind Synonyme gemäß:
Zitat von Seite 1:
Fett gedruckter Text ist nicht Teil des Originaltexts.
Das vom Autor kostenlos zum Download zur Verfügung gestellte PDF des Buches finden Sie hier.
quelle
Eine augenzwinkernde Antwort:
Ausreißer: Ein Wert, den Sie vorhersehbar in Ihren Daten finden und der angibt, dass Ihr Modell nicht ordnungsgemäß funktioniert
Anomalie: Ein Wert, der trotz aller Widrigkeiten in Ihren Daten anzeigt, dass Ihr Modell ordnungsgemäß funktioniert
Eine ernstere, weniger kryptische Antwort:
Das Konzept der Ausreißer beginnt mit der Erstellung eines Modells, das Annahmen über die Daten trifft. Ausreißer sind häufig Indikatoren dafür, dass das Modell die Daten nicht richtig beschreibt, und daher sollten wir die Ergebnisse unseres Modells oder die Qualität unserer Daten in Frage stellen.
Das Konzept von Anomalien beginnt außerhalb der theoretischen Welt und innerhalb der angewandten Welt: Wir möchten in unseren Daten nach ungewöhnlichem Verhalten suchen, manchmal motiviert durch die Tatsache, dass wir daran interessiert sind, ein Verhalten zu finden, das jemand zu verbergen versucht (wie ein Virus in einem Virus) Email). Das Problem ist, dass wir nicht genau wissen, wonach wir suchen, da die Leute versuchen, ihre Handlungen zu verbergen. Wir nehmen also eine Reihe von "guten" Daten und stellen fest, dass alles, was in unserem neuen Dataset nicht "gut" aussieht, eine Anomalie ist und es wert ist, dass wir uns die Zeit nehmen, es genauer anzusehen. Wenn Sie nach Anomalien suchen, müssen Sie häufig nach Ausreißern in Ihrem neuen Datensatz suchen. Beachten Sie jedoch, dass diese Werte in Ihrem neuen Datensatz sehr häufig vorkommen können, obwohl sie in Ihrem alten Datensatz selten vorkommen!
Zusammenfassend sind sich die beiden Konzepte in der Statistik sehr ähnlich (dh ungewöhnliche Werte für Ihr angepasstes Modell), kommen aber aus unterschiedlichen Blickwinkeln auf die Idee. Wenn wir über Ausreißer sprechen, meinen wir normalerweise einen ungewöhnlichen Datenpunkt in den Daten, die für unser Modell verwendet werden , wobei eine Anomalie normalerweise als ungewöhnlicher Datenpunkt in einem Datensatz außerhalb der Daten gemeint ist, die für unser Modell verwendet werden .
Hinweis: Diese Antwort basiert darauf, wie ich die beiden häufig verwendeten Begriffe und nicht die formalen Definitionen gesehen habe. Benutzererfahrungen können abweichen.
quelle
Eine Anomalie ist ein Ergebnis, das aufgrund der Basisverteilung nicht erklärt werden kann (eine Unmöglichkeit, wenn unsere Annahmen richtig sind). Ein Ausreißer ist aufgrund der Basisverteilung ein unwahrscheinliches Ereignis (eine Unwahrscheinlichkeit).
quelle
Die Begriffe werden weitgehend austauschbar verwendet. "Ausreißer" bezieht sich auf etwas, das außerhalb der Norm liegt - es ist also "anomal". Aber ich habe den Eindruck, dass "Ausreißer" normalerweise für sehr seltene Beobachtungen verwendet wird. In der Statistik würden Sie bei einer Normalverteilung drei Sigma als Ausreißer betrachten. Das sind 99,7% Ihrer Objekte, von denen erwartet wird, dass sie "normal" sind. "Anomaly" wird viel großzügiger verwendet. Wenn Sie plötzlich Millionen von Besuchern auf Ihrer Website haben, sind dies keine seltenen Besucher. Die plötzliche Zunahme der Besucher ist jedoch immer noch "anomal", während jeder einzelne Besucher kein "Ausreißer" ist.
Möglicherweise habe ich in diesem Artikel diese Unterschiede besprochen, aber ich kann momentan leider nicht darauf zugreifen.
quelle
Nur um das Wasser weiter zu trüben, impliziert eine klimatologische Anomalie nur den Unterschied zwischen Wert und Mittelwert oder eine Abweichung:
siehe zb
Das kann durchaus als außerhalb des maschinellen Lernens betrachtet werden, aber Leute, die an der Frage interessiert sind, könnten daran interessiert sein.
quelle
Eine Anomalie kann ein Datenpunkt sein oder auch ein allgemeiner Trend oder ein allgemeines Verhalten, das in Daten beobachtet wird, nachdem bereits ein Modell erstellt wurde oder ein Verständnis des Datenerzeugungsprozesses hergestellt wurde. Sie stoßen auf Anomalien, weil sich das System anders verhält, oder Sie suchen nach solchen Datenpunkten, weil Sie informiert werden möchten, wenn ein Ereignis eintritt, bei dem Ihr Modell ungültig ist. Möglicherweise möchten Sie ein anormales Verhalten in den Amplituden der Meereswellen beobachten, nicht weil Sie diese Datenpunkte wegwerfen und ein besseres Modell erstellen möchten, sondern weil Sie wissen möchten, wann ein Tsunami stattfinden könnte.
quelle
Gute Frage. Die Google-Suche nach "Unterschied zwischen Ausreißer- und Anomalien-Website: .edu" zeigt jedoch, dass zwischen diesen beiden Begriffen kein theoretischer Unterschied besteht. Sie werden in der Literatur synonym verwendet.
quelle