Ich habe eine Menge (ungefähr 1000) Schätzungen, und alle sollen Schätzungen der langfristigen Elastizität sein. Etwas mehr als die Hälfte davon wird mit Methode A und der Rest mit Methode B geschätzt. Irgendwo las ich so etwas wie "Ich denke, Methode B schätzt etwas ganz anderes als Methode A, weil die Schätzungen viel (50-60%) höher sind ". Ich kenne mich mit robusten Statistiken so gut wie gar nicht aus, also habe ich nur die Stichprobenmittelwerte und -mediane beider Stichproben berechnet ... und sofort den Unterschied festgestellt. Methode A ist sehr konzentriert, der Unterschied zwischen Median und Mittelwert ist sehr gering, aber die Stichprobe von Methode B variierte stark.
Ich kam zu dem Schluss, dass die Ausreißer und Messfehler die Stichprobe nach Methode B verzerren, und warf daher etwa 50 Werte (etwa 15%) weg, die mit der Theorie sehr inkonsistent waren ... und plötzlich waren die Mittelwerte beider Stichproben (einschließlich ihres CI) sehr ähnlich . Auch die Dichtediagramme.
(In dem Bestreben, Ausreißer zu eliminieren, habe ich den Bereich von Stichprobe A untersucht und alle Stichprobenpunkte in B entfernt, die außerhalb des Bereichs lagen.) Ich möchte, dass Sie mir mitteilen, wo ich einige Grundlagen für eine robuste Schätzung der Mittelwerte finden kann erlauben Sie mir, diese Situation strenger zu beurteilen. Und um einige Referenzen zu haben. Ich brauche kein sehr tiefes Verständnis für verschiedene Techniken, sondern lese einen umfassenden Überblick über die Methodik der robusten Schätzung.
Nach Entfernen der Ausreißer wurde die Signifikanz der mittleren Differenz getestet, und der p-Wert betrug 0,0559 (t um 1,9). Für die vollständigen Stichproben betrug der t-Wert etwa 4,5. Aber das ist nicht wirklich der Punkt, die Mittel können ein bisschen anders sein, aber sie sollten sich nicht um 50-60% unterscheiden, wie oben angegeben. Und ich glaube nicht, dass sie es tun.
quelle
Antworten:
Suchen Sie die Theorie oder etwas Praktisches?
Wenn Sie nach Büchern suchen, sind hier einige, die ich hilfreich fand:
FR Hampel, EM Ronchetti, PJ Rousseeuw, WA Stahel, Robuste Statistik: Der auf Einflussfunktionen basierende Ansatz , John Wiley & Sons, 1986.
PJ Huber, Robuste Statistik , John Wiley & amp; Söhne, 1981.
PJ Rousseeuw, AM Leroy, Robuste Regressions- und Ausreißererkennung , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Robuste Schätzung und Prüfung , John Wiley & Sons, 1990.
Wenn Sie nach praktischen Methoden suchen, finden Sie hier einige zuverlässige Methoden zum Schätzen des Mittelwerts ("Standortschätzer", denke ich, der prinzipiellere Begriff):
Der Median ist einfach, bekannt und ziemlich leistungsfähig. Es hat eine ausgezeichnete Robustheit gegenüber Ausreißern. Der "Preis" für Robustheit liegt bei 25%.
Der um 5% reduzierte Durchschnitt ist eine weitere mögliche Methode. Hier werfen Sie die 5% höchsten und 5% niedrigsten Werte weg und nehmen dann den Mittelwert (Durchschnitt) des Ergebnisses. Dies ist weniger robust für Ausreißer: Solange nicht mehr als 5% Ihrer Datenpunkte beschädigt sind, ist es gut, aber wenn mehr als 5% beschädigt sind, wird es plötzlich schrecklich (es verschlechtert sich nicht anmutig). Der "Preis" für Robustheit ist geringer als der Median, obwohl ich nicht genau weiß, was es ist.
Das Interquartilmittel ist ein weiterer Schätzer, der manchmal verwendet wird. Es berechnet den Durchschnitt des ersten und dritten Quartils und ist daher einfach zu berechnen. Es weist eine sehr gute Robustheit auf: Es kann eine Beschädigung von bis zu 25% der Datenpunkte tolerieren. Der "Preis" für Robustheit ist jedoch nicht trivial: etwa 25%. Infolgedessen scheint dies dem Median unterlegen zu sein.
Es wurden viele andere Maßnahmen vorgeschlagen, die jedoch vernünftig erscheinen.
Kurz gesagt, ich würde den Median oder möglicherweise den Hodges-Lehmann-Schätzer vorschlagen.
PS Oh, ich sollte erklären, was ich mit dem "Preis" der Robustheit meine. Ein robuster Schätzer ist so konzipiert, dass er auch dann noch anständig funktioniert, wenn einige Ihrer Datenpunkte beschädigt wurden oder auf andere Weise als Ausreißer eingestuft wurden. Was aber, wenn Sie einen zuverlässigen Schätzer für einen Datensatz verwenden, der keine Ausreißer und keine Korruption aufweist? Im Idealfall möchten wir, dass der robuste Schätzer die Daten so effizient wie möglich nutzt. Hier können wir die Effizienz anhand des Standardfehlers messen (intuitiv die typische Fehlermenge in der Schätzung, die vom Schätzer erstellt wird). Es ist bekannt, dass, wenn Ihre Beobachtungen aus einer Gaußschen Verteilung (iid) stammen und Sie wissen, dass Sie keine Robustheit benötigen, der Mittelwert optimal ist: Er hat den kleinstmöglichen Schätzfehler. Der "Preis" der Robustheit, über, ist, um wie viel sich der Standardfehler erhöht, wenn wir einen bestimmten robusten Schätzer auf diese Situation anwenden. Ein Robustheitspreis von 25% für den Median bedeutet, dass die Größe des typischen Schätzfehlers mit dem Median etwa 25% größer ist als die Größe des typischen Schätzfehlers mit dem Mittelwert. Je niedriger der "Preis" ist, desto besser.
quelle
wilcox.test(..., conf.int=TRUE)
Wenn Sie etwas kurzes und leicht verdauliches mögen, schauen Sie sich das folgende Papier aus der psychologischen Literatur an:
Erceg-Hurn, DM & Mirosevich, VM (2008). Moderne robuste statistische Methoden: Ein einfacher Weg, um die Genauigkeit und Leistungsfähigkeit Ihrer Forschung zu maximieren. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591
Sie stützen sich hauptsächlich auf die Bücher von Rand R Wilcox (die zugegebenermaßen auch nicht zu mathematisch sind):
Wilcox, RR (2001). Grundlagen moderner statistischer Methoden: Wesentliche Verbesserung von Leistung und Genauigkeit. New York; Berlin: Springer.
Wilcox, RR (2003). Anwendung zeitgenössischer statistischer Techniken. Amsterdam; Boston: Akademische Presse.
Wilcox, RR (2005). Einführung in die robuste Schätzung und das Testen von Hypothesen. Akademische Presse.
quelle
Ein Buch, das Theorie mit Praxis ziemlich gut verbindet, ist Robust Statistical Methods with R von Jurečková und Picek. Ich mag auch Robust Statistics von Maronna et al. Beide haben jedoch möglicherweise mehr Mathematik, als Sie möchten. Für ein ausführlicheres Tutorial zu R kann dieses BelVenTutorial-PDF hilfreich sein.
quelle