Warum wird RANSAC in der Statistik nicht am häufigsten verwendet?

26

Ich komme aus dem Bereich der Computersicht und habe oft die RANSAC- Methode (Random Sample Consensus) verwendet, um Modelle an Daten mit vielen Ausreißern anzupassen.

Ich habe es jedoch noch nie von Statistikern gesehen und hatte immer den Eindruck, es sei keine "statistisch fundierte" Methode. Warum ist das so? Es ist zufälliger Natur, was die Analyse erschwert, ebenso wie Bootstrapping-Methoden.

Oder sprechen einfach nur akademische Silos nicht miteinander?

Bossykena
quelle
1
Ich frage mich, was Computer Vision-Methoden im Vergleich zu Statistik-Methoden betrifft: Leistung in der ersten Phase ist ein Muss. Vielleicht gibt es einen Kompromiss zwischen Leistung und "Korrektheit", und Computersicht und Statistik haben unterschiedliche Gewichte für diese Variablen.
Lucas Reis

Antworten:

10

Ich denke, dass der Schlüssel hier das Verwerfen eines großen Teils der Daten in RANSAC ist.

In den meisten statistischen Anwendungen können einige Verteilungen starke Schwänze aufweisen, und daher können kleine Probenzahlen die statistische Schätzung verzerren. Robuste Schätzer lösen dies, indem sie die Daten unterschiedlich gewichten. RANSAC hingegen versucht nicht, die Ausreißer zu berücksichtigen, sondern wurde für Fälle entwickelt, in denen die Datenpunkte nicht wirklich gehören, sondern nur nicht normal verteilt sind.

nbubis
quelle
1
Gute Antwort. Ich habe gesehen, dass RANSAC am häufigsten im Lebenslauf verwendet wird, um Homographien zu schätzen. Dies wird am häufigsten verwendet, wenn wir wissen, dass einige der entsprechenden Messungen äußerst unzuverlässig sind. Aufgrund der Echtzeitleistung und anderer Überlegungen ist diese Technik sehr beliebt, da sie leicht parallelisiert werden kann.
Luca
7

Für uns ist es nur ein Beispiel für eine robuste Regression - ich glaube, dass sie auch von Statistikern verwendet wird, aber vielleicht nicht so umfassend, weil es einige bekanntere Alternativen gibt.


quelle
1
Können Sie Beispiele für Alternativen nennen? Ich würde das gerne untersuchen.
Bossykena
5
Die bekannteste und einfachste ist die Median-Median-Regression, die von intelligenten Taschenrechnern (Sigh!) Bekannt ist. Konsultieren Sie auch Wikipedia en.wikipedia.org/wiki/Robust_regression und möglicherweise CRANS Robust-Task-Ansicht cran.r-project.org/web/views/Robust.html
Gibt es Alternativen zu RANSAC, die Ihnen nicht nur die unvoreingenommene Regression liefern, sondern auch die Datenpunkte, aus denen das Modell geschätzt wurde? Vielen Dank
Valerio
2

Dies klingt sehr nach Absacken, was eine häufig verwendete Technik ist.

Zach
quelle
3
RANSAC ist ganz anders - beim Absacken werden alle Proben in gewisser Weise berücksichtigt. RANSAC wird in Fällen verwendet, in denen bis zu 50% der Daten vollständig verworfen werden sollen.
nbubis
1

Sie werfen Daten mit RANSAC weg, möglicherweise ohne dies zu rechtfertigen, aber basierend auf einer besseren Anpassung des Modells. Das Wegwerfen von Daten für eine bessere Passform wird normalerweise vermieden, da Sie möglicherweise wichtige Daten verlieren. Die Entfernung von Ausreißern ohne Begründung ist immer problematisch.

Es ist natürlich möglich, dies zu rechtfertigen. Wenn Sie beispielsweise wissen, dass die Daten einem bestimmten Muster folgen sollten, die Daten jedoch aufgrund von Messfehlern vom Muster abweichen.

NegativeFeedbackLoop
quelle