Ausreißererkennung mittels Regression

11

Kann die Regression zur Erkennung von Lier verwendet werden? Ich verstehe, dass es Möglichkeiten gibt, ein Regressionsmodell durch Entfernen der Ausreißer zu verbessern. Das Hauptziel hierbei ist jedoch nicht, ein Regressionsmodell anzupassen, sondern mithilfe der Regression die Liers herauszufinden

user48567
quelle
Wenn sich die Passform nach der Anpassung eines Modells ohne Overlayer verbessert, gibt es Hinweise darauf, dass dies ein extremer Wert ist. Dies kann strittig sein, wenn Sie viele Daten haben, da die Passform relativ weniger verbessert wird.
Roman Luštrik
@ RomanLuštrik: Dies ist eine sehr zögernde Definition von Ausreißern. Zum Beispiel stimmt es nicht mit der Ansicht der Ausreißer überein, die in der Antwort von Glen_b verwendet werden (oder mit der Definition der Ausreißer, die in Lehrbüchern zu diesem Thema verwendet werden, wie z. B. "Robuste Statistik: Theorie und Methoden"). Möchten Sie eine Quelle angeben, die Ihre Definition unterstützt?
user603
Ich kann keine Referenz zitieren. Sie haben natürlich Recht, was ist eine Verbesserung der Passform? Verbesserungen können sehr subjektiv sein und sollten als Leitfaden dienen, nicht als Grenzwert für Roboter, und von Fall zu Fall beurteilt werden.
Roman Luštrik
Iterativ neu gewichtete kleinste Quadrate sind eine robuste Regressionsmethode , die häufig zum Auffinden von Ausreißern in Daten verwendet wird.
whuber

Antworten:

13

Die beste Option zur Verwendung der Regression zum Auffinden von Ausreißern ist die Verwendung einer robusten Regression.

Die normale Regression kann von Ausreißern auf zwei Arten beeinflusst werden:

x¯

Zweitens ist eine "äußere" Beobachtung im x-Raum eine einflussreiche Beobachtung - sie kann die Anpassung der Linie in diese Richtung ziehen. Wenn es weit genug entfernt ist, geht die Linie durch den einflussreichen Punkt:

Geben Sie hier die Bildbeschreibung ein

In der linken Darstellung gibt es einen Punkt, der ziemlich einflussreich ist und der die Linie ziemlich weit von der großen Masse der Daten entfernt. In der richtigen Darstellung wurde es noch weiter entfernt - und jetzt geht die Linie durch den Punkt. Wenn der x-Wert so extrem ist, bewegt sich die Linie beim Auf- und Abbewegen des Punktes mit, wobei der Mittelwert der anderen Punkte und der eine einflussreiche Punkt durchlaufen werden.

Ein einflussreicher Punkt, der perfekt mit dem Rest der Daten übereinstimmt, ist möglicherweise kein so großes Problem, aber einer, der weit von einer Linie durch den Rest der Daten entfernt ist, passt die Linie eher an sie als an die Daten an.

Wenn Sie sich das Diagramm auf der rechten Seite ansehen, zeigt die rote Linie - die Regressionslinie der kleinsten Quadrate - den Extrempunkt überhaupt nicht als Ausreißer - ihr Residuum ist 0. Stattdessen befinden sich die großen Residuen der Linie der kleinsten Quadrate in der Hauptteil der Daten!

Dies bedeutet, dass Sie einen Ausreißer komplett übersehen können .

Schlimmer noch, bei multipler Regression kann ein Ausreißer im x-Raum für eine einzelne x-Variable nicht besonders ungewöhnlich aussehen. Wenn die Möglichkeit eines solchen Punktes besteht, ist es möglicherweise sehr riskant, die Regression der kleinsten Quadrate zu verwenden.

Robuste Regression

Wenn Sie eine robuste Linie - insbesondere eine robuste Linie für einflussreiche Ausreißer - wie die grüne Linie im zweiten Diagramm anpassen - hat der Ausreißer einen sehr großen Rest.

In diesem Fall haben Sie die Hoffnung, Ausreißer zu identifizieren - dies sind Punkte, die in gewissem Sinne nicht nahe an der Linie liegen.


Ausreißer entfernen

Sie können sicherlich eine robuste Regression verwenden, um Ausreißer zu identifizieren und dadurch zu entfernen.

Sobald Sie jedoch eine robuste Regressionsanpassung haben, die bereits nicht stark von Ausreißern betroffen ist, müssen Sie die Ausreißer nicht unbedingt entfernen - Sie haben bereits ein Modell, das gut passt.

Glen_b - Monica neu starten
quelle
1
„Sie müssen nicht unbedingt um die Ausreißer zu entfernen“ manchmal, die Ausreißer zu finden , ist der Zweck der Studie (zB Betrugserkennung)
user603
1
3
(+1) Schöne Antwort, aber es ist schade, dass Sie keine Methoden der robusten Regression erwähnen. Wie wurde beispielsweise die grüne Linie in der rechten Unterzeichnung dargestellt (und warum bevorzugen Sie diesen Algorithmus gegenüber den anderen)? Vielleicht könnte dieser Link hier nützlich sein: Schnelle lineare Regression, robust gegenüber Ausreißern - wohl der beste Thread im Lebenslauf, in dem es um robuste Regression geht.
Amöbe sagt Reinstate Monica
-2

Kann die Regression zur Erkennung von Ausreißern verwendet werden?

Ja. Diese Antwort und die Antwort von Glen_b sprechen dies an.

Das Hauptziel hierbei ist nicht, ein Regressionsmodell anzupassen, sondern mithilfe der Regression die Liers herauszufinden

Aufbauend auf Roman Lustriks Kommentar ist hier eine Heuristik, um Ausreißer mithilfe der (multiplen linearen) Regression zu finden.

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

Wenn Sie diese Ausreißerpunkte beiseite lassen, können Sie die gesamte Übung mit der reduzierten Stichprobe wiederholen. Im Algorithmus wählen wir Beispiele in den Daten aus, die die Regressionsanpassung auf schlechte Weise beeinflussen (dies ist eine Möglichkeit, ein Beispiel als Ausreißer zu kennzeichnen).

Theja
quelle
1
Haben Sie diese Strategie mit dem hier gezeigten Datensatz ausprobiert ? Grundsätzlich läuft Ihre Strategie darauf hinaus, zu behaupten, dass Ausreißer zuverlässig aus den Ergebnissen einer Anpassungskette ermittelt werden können, die eine konvexe Verlustfunktion minimiert. Dies ist ein bekannter Irrtum, wenn es mehr als einen Ausreißer gibt (dieser Link zeigt dies für das zugehörige Problem multivariate Ausreißer zu finden, aber die Ergebnisse gelten auch für die Regression).
user603
Gerne entferne ich meine Antwort. Aber zuerst verstehe ich nicht beide Refs, die Sie geben, und außerdem bin ich mir nicht sicher, warum sie meine Antwort falsch machen. Wo ist eine "Strategie" der erste Schiedsrichter? Können Sie dort auf eine bestimmte Antwort verweisen? Welche Seite und Zeile des zweiten Verweises ist hier relevant und diskutiert den "Irrtum"?
Theja
1
Entschuldigung, ich konnte erst jetzt darauf zurückkommen. Der Kommentarbereich ist etwas kurz, um ein Beispiel zu liefern, und ich werde den Abschnitt "Antwort" nicht verwenden, da es sich nicht um die Frage des OP handelt. Haben Sie dennoch Zeit gehabt, Ihre Methodik für die von mir verknüpften Daten auszuprobieren?
user603