Ich komme aus dem Bereich der Computersicht und habe oft die RANSAC- Methode (Random Sample Consensus) verwendet, um Modelle an Daten mit vielen Ausreißern anzupassen.
Ich habe es jedoch noch nie von Statistikern gesehen und hatte immer den Eindruck, es sei keine "statistisch fundierte" Methode. Warum ist das so? Es ist zufälliger Natur, was die Analyse erschwert, ebenso wie Bootstrapping-Methoden.
Oder sprechen einfach nur akademische Silos nicht miteinander?
Antworten:
Ich denke, dass der Schlüssel hier das Verwerfen eines großen Teils der Daten in RANSAC ist.
In den meisten statistischen Anwendungen können einige Verteilungen starke Schwänze aufweisen, und daher können kleine Probenzahlen die statistische Schätzung verzerren. Robuste Schätzer lösen dies, indem sie die Daten unterschiedlich gewichten. RANSAC hingegen versucht nicht, die Ausreißer zu berücksichtigen, sondern wurde für Fälle entwickelt, in denen die Datenpunkte nicht wirklich gehören, sondern nur nicht normal verteilt sind.
quelle
Für uns ist es nur ein Beispiel für eine robuste Regression - ich glaube, dass sie auch von Statistikern verwendet wird, aber vielleicht nicht so umfassend, weil es einige bekanntere Alternativen gibt.
quelle
Dies klingt sehr nach Absacken, was eine häufig verwendete Technik ist.
quelle
Sie werfen Daten mit RANSAC weg, möglicherweise ohne dies zu rechtfertigen, aber basierend auf einer besseren Anpassung des Modells. Das Wegwerfen von Daten für eine bessere Passform wird normalerweise vermieden, da Sie möglicherweise wichtige Daten verlieren. Die Entfernung von Ausreißern ohne Begründung ist immer problematisch.
Es ist natürlich möglich, dies zu rechtfertigen. Wenn Sie beispielsweise wissen, dass die Daten einem bestimmten Muster folgen sollten, die Daten jedoch aufgrund von Messfehlern vom Muster abweichen.
quelle