Ausreißer aus Daten entfernen - maximale Anzahl von Ausreißern, die Sie entfernen können?
9
Ich habe einige Ausreißer in meinen Daten und wollte sie ausschließen, um zu sehen, ob dies die Ergebnisse ändert. Auf wie viele Ausreißer sollte man sich Ihrer Meinung nach maximal beschränken?
Ihr Diagramm wird hier entstellt: Die numerischen Beschriftungen auf der y-Achse fehlen und die Legendeneinträge sind nicht eindeutig. (Dies mag eine Möglichkeit sein, unveröffentlichte Daten zu verbergen, aber es hilft uns nicht, Ihnen gute Ratschläge zu geben.) Die kryptische Legende wirkt sich nicht auf Ihre Frage aus, aber wenn Sie nicht wissen, an welchem Maßstab Sie arbeiten, wird der Spielraum für nützliche Antworten eingeschränkt . Die gezeigten Daten zeigen einen moderaten linken oder negativen Versatz; Dies mag sinnvoll sein, und die offensichtlichen Ausreißer sind nur Konsequenzen daraus. Alternativ kann es sein, dass Sie übertransformiert haben, z. B. verwendete Logarithmen, bei denen die Daten dies nicht verdienen.
Nick Cox
Antworten:
9
Es gibt kein Maximum oder Minimum. Ausreißer sollten entfernt werden, wenn es sich um fehlerhafte Daten handelt oder wenn andere wesentliche Gründe für deren Entfernung vorliegen. Wenn es keine wesentlichen Gründe gibt, schlage ich vor, Methoden zu verwenden, die für Ausreißer robust sind. Ich würde Ausreißer nicht entfernen, nur weil sie etwas weit von anderen Punkten entfernt sind.
Einverstanden. Beachten Sie, dass Box, Hunter & Hunter: "Statistics for Experimenters" besagt, dass in der chemischen Industrie Ausreißer häufig zu neuen Patenten geführt haben! Abhängig von den Umständen können Ausreißer die wichtigste Information in Ihren Daten sein! Das Entfernen sollte niemals einfach sein.
kjetil b halvorsen
3
Auch in der Astrophysik. "Löschen wir einfach die Schwarzen Löcher und Neutronensterne aus den Daten" :-).
Peter Flom - Monica wieder einsetzen
1
Peter Flom: Ja! Und wenn es unter uns keine Ausreißer gäbe, würden wir immer noch in der Steinzeit leben!
kjetil b halvorsen
5
Beachten Sie in diesem Beispiel, dass alle 7 markierten Ausreißer niedrige Werte haben, während keine hohe Werte haben. Das könnte Probleme mit der Messung darstellen oder etwas sehr Interessantes bedeuten. In jedem Fall wäre es nicht ratsam, hier nur Ausreißer zu entfernen, ohne zu berücksichtigen, was zu den niedrigen Werten geführt hat.
EdM
1
Ich interpretiere die Frage etwas anders. Es wird nicht vorgeschlagen, Ausreißer aus der Analyse zu entfernen, was diese Antwort implizit voraussetzt. Es wird nur gefragt, wie eine Sensitivitätsanalyse durchgeführt werden soll, "um festzustellen, ob dies die Ergebnisse ändert". Obwohl die hier gegebenen Ratschläge zur Entfernung von Ausreißern in Ordnung sind - und eindeutig einen Einfluss auf spätere Entscheidungen haben würden, wenn sich herausstellt, dass die Analyse für die Ausreißer empfindlich ist -, scheint sie in diesem Fall nicht den Interessen des OP zu dienen.
whuber
1
Ich möchte etwas hervorheben, das in einer anderen Antwort und in anderen Kommentaren gesagt wurde (ich denke, dass die Antworten von @Peter Flom korrekt sind und dass EdM unter anderem bei Messungen direkt auf dem Laufenden ist).
Das Analysieren von Daten muss sorgfältig durchgeführt werden. Sie müssen sich der Bedeutung von Ausreißern in Ihrem Kontakt sehr wohl bewusst sein. Angenommen, Ihr Messverfahren wurde "korrekt" durchgeführt (ich meine, Sie haben keine Verzerrungen eingeführt, Ihre Ausrüstung wurde kalibriert, die Person, die das Instrument liest, hat es korrekt durchgeführt usw. usw.), können einige Ausreißer etwas Interessantes erzählen und manchmal sehr wichtig.
Hier ist ein erfundenes Beispiel, bitte seien Sie nachsichtig (zeigen Sie sie in Kommentaren), wenn es nicht in allen Aspekten zu 100% richtig ist. ;)
Angenommen, jemand testet die Wirkung der Anwendung einer bestimmten Menge einer Substanz auf bestimmte Kulturen (Populationen) von Bakterien. Nun, "im Allgemeinen", bewirkt dies eine Stabilisierung der Anzahl der Bakterien in der Bevölkerung, aber es gibt einige Ausreißer zwischen den verschiedenen Kulturen.
Stellen Sie sich vor, alle Ihre Ausreißer weisen auf Situationen hin, in denen alle Bakterien tot sind. Oder dass alle Ausreißer Kulturen darstellen, in denen die Bakterienpopulationen außer Kontrolle geraten sind.
Ich möchte darauf hinweisen, dass die Art Ihrer wahrgenommenen Ausreißer möglicherweise von Bedeutung ist und die Konsequenzen der einzelnen Ausreißer unterschiedlich sind. Möglicherweise befinden Sie sich in einer Situation, in der es unerträglich ist, dass die Anzahl der Bakterien zunimmt oder abnimmt.
Wenn Sie bemerken würden, dass einige Populationen durch die Substanz ausgelöscht wurden, würden Sie dies wahrscheinlich untersuchen, da es sich um eine leicht erkennbare Situation handelt. Aber nicht alle Phänomene sind leicht erkennbar.
Zusammenfassend ist der Begriff der Ausreißer etwas willkürlich, aber ihre Bedeutungen sind vielfältig und von unterschiedlicher Bedeutung. Hoffe es wird dich zum Nachdenken bringen ... :)
Antworten:
Es gibt kein Maximum oder Minimum. Ausreißer sollten entfernt werden, wenn es sich um fehlerhafte Daten handelt oder wenn andere wesentliche Gründe für deren Entfernung vorliegen. Wenn es keine wesentlichen Gründe gibt, schlage ich vor, Methoden zu verwenden, die für Ausreißer robust sind. Ich würde Ausreißer nicht entfernen, nur weil sie etwas weit von anderen Punkten entfernt sind.
quelle
Ich möchte etwas hervorheben, das in einer anderen Antwort und in anderen Kommentaren gesagt wurde (ich denke, dass die Antworten von @Peter Flom korrekt sind und dass EdM unter anderem bei Messungen direkt auf dem Laufenden ist).
Das Analysieren von Daten muss sorgfältig durchgeführt werden. Sie müssen sich der Bedeutung von Ausreißern in Ihrem Kontakt sehr wohl bewusst sein. Angenommen, Ihr Messverfahren wurde "korrekt" durchgeführt (ich meine, Sie haben keine Verzerrungen eingeführt, Ihre Ausrüstung wurde kalibriert, die Person, die das Instrument liest, hat es korrekt durchgeführt usw. usw.), können einige Ausreißer etwas Interessantes erzählen und manchmal sehr wichtig.
Hier ist ein erfundenes Beispiel, bitte seien Sie nachsichtig (zeigen Sie sie in Kommentaren), wenn es nicht in allen Aspekten zu 100% richtig ist. ;)
Angenommen, jemand testet die Wirkung der Anwendung einer bestimmten Menge einer Substanz auf bestimmte Kulturen (Populationen) von Bakterien. Nun, "im Allgemeinen", bewirkt dies eine Stabilisierung der Anzahl der Bakterien in der Bevölkerung, aber es gibt einige Ausreißer zwischen den verschiedenen Kulturen.
Stellen Sie sich vor, alle Ihre Ausreißer weisen auf Situationen hin, in denen alle Bakterien tot sind. Oder dass alle Ausreißer Kulturen darstellen, in denen die Bakterienpopulationen außer Kontrolle geraten sind.
Ich möchte darauf hinweisen, dass die Art Ihrer wahrgenommenen Ausreißer möglicherweise von Bedeutung ist und die Konsequenzen der einzelnen Ausreißer unterschiedlich sind. Möglicherweise befinden Sie sich in einer Situation, in der es unerträglich ist, dass die Anzahl der Bakterien zunimmt oder abnimmt.
Wenn Sie bemerken würden, dass einige Populationen durch die Substanz ausgelöscht wurden, würden Sie dies wahrscheinlich untersuchen, da es sich um eine leicht erkennbare Situation handelt. Aber nicht alle Phänomene sind leicht erkennbar.
Zusammenfassend ist der Begriff der Ausreißer etwas willkürlich, aber ihre Bedeutungen sind vielfältig und von unterschiedlicher Bedeutung. Hoffe es wird dich zum Nachdenken bringen ... :)
quelle