Ich bin gerade auf Anscombes Quartett gestoßen (vier Datensätze, deren beschreibende Statistik kaum zu unterscheiden ist, deren Darstellung jedoch sehr unterschiedlich aussieht), und ich bin gespannt, ob es weitere mehr oder weniger bekannte Datensätze gibt, die die Bedeutung bestimmter Aspekte belegen statistischer Auswertungen.
regression
data-visualization
dataset
Ruhezustand
quelle
quelle
Antworten:
Es gibt Datensätze, die als Gegenbeispiel zu Missverständnissen dienen *. Ich habe viele selbst unter verschiedenen Umständen konstruiert, aber die meisten wären für Sie sicher nicht interessant.
* (genau das tun die Anscombe-Daten, da dies eine Reaktion auf das Missverständnis ist, dass die Qualität eines Modells anhand der von Ihnen genannten identischen Statistiken erkannt werden kann.)
Ich werde hier einige nennen, die von größerem Interesse sein könnten als die meisten, die ich generiere:
1) Ein Beispiel (von einigen) sind einige diskrete Verteilungen (und damit Datensätze), die ich konstruiert habe, um der allgemeinen Behauptung entgegenzuwirken, dass eine Versetzung im dritten Moment von Null Symmetrie impliziert. (Kendalls und Stuarts Advanced Theory of Statistics bietet eine beeindruckendere kontinuierliche Familie.)
Hier ist eines dieser diskreten Verteilungsbeispiele:
(Ein Datensatz für ein Gegenbeispiel im Beispielfall liegt dabei auf der Hand: )- 4 , - 4 , 1 , 1 , 1 , 5
Wie Sie sehen können, ist diese Verteilung nicht symmetrisch, jedoch ist ihre dritte Momentenversetzung Null. In ähnlicher Weise kann man leicht Gegenbeispiele zu einer ähnlichen Behauptung in Bezug auf das zweithäufigste Skewness-Maß, den zweiten Pearson-Skewness-Koeffizienten ( konstruieren .3 ( m e a n - m e dich a nσ)
In der Tat habe ich mir auch Verteilungen und / oder Datensätze ausgedacht, bei denen die beiden Maße im Vorzeichen entgegengesetzt sind - was ausreicht, um der Vorstellung entgegenzuwirken, dass es sich bei der Schiefe um ein einziges, leicht verständliches Konzept handelt, und nicht um eine etwas rutschige Idee, die wir eigentlich nicht kennen wissen, wie man in vielen Fällen richtig misst.
2) In diesem Antwort- Box-and-Whisker-Diagramm für die multimodale Verteilung ist ein Datensatz enthalten, der dem Ansatz von Choonpradub & McNeil (2005) folgt und vier sehr unterschiedlich aussehende Datensätze mit demselben Boxplot zeigt.
Insbesondere die deutlich verzerrte Verteilung mit dem symmetrischen Boxplot überrascht die Menschen.
3) Es gibt noch ein paar Sammlungen von Gegenbeispieldatensätzen, die ich als Reaktion auf die übermäßige Abhängigkeit der Menschen von Histogrammen erstellt habe, insbesondere mit nur wenigen Behältern und nur einer Behälterbreite und einem Behälterursprung. was zu fälschlicherweise zuversichtlichen Aussagen über die Verteilungsform führt. Diese Datensätze und Beispielanzeigen finden Sie hier
Hier ist eines der Beispiele von dort. Dies sind die Daten:
Und hier sind zwei Histogramme:
Das sind die 34 obigen Beobachtungen in beiden Fällen, nur mit unterschiedlichen Haltepunkten, einer mit Binwidth und der andere mit Binwidth . Die Diagramme wurden in R wie folgt erzeugt:1 0.8
4) Ich habe kürzlich einige Datensätze erstellt, um die Intransitivität des Wilcoxon-Mann-Whitney-Tests zu demonstrieren - das heißt, um zu zeigen, dass man eine einseitige Alternative für jedes der drei oder vier Paare von Datensätzen, A, B und, ablehnen könnte C (und D in dem Fall mit vier Beispielen), so dass man zu dem Schluss kam, dass (dh zu dem Schluss, dass B tendenziell größer als A ist), und ähnlich zu C gegen B und A gegen C (oder D gegen C und A gegen D für den Fall mit 4 Proben); jedes ist tendenziell größer (in dem Sinne, dass es mehr als nur eine Chance hat, größer zu sein) als das vorherige im Zyklus.P( B > A ) > 12
Hier ist ein solcher Datensatz mit 30 Beobachtungen in jeder Stichprobe, gekennzeichnet mit A bis D:
Hier ist ein Beispieltest:
Wie Sie sehen, weist der einseitige Test die Null zurück. Werte von A sind tendenziell kleiner als Werte von B. Die gleiche Schlussfolgerung (bei gleichem p-Wert) gilt für B gegen C, C gegen D und D gegen A. Dieser Zyklus von Ablehnungen ist an sich kein Problem Wenn wir es nicht so interpretieren, dass es etwas bedeutet, tut es das nicht. (Es ist ganz einfach, mit ähnlichen, aber größeren Stichproben viel kleinere p-Werte zu erhalten.)
Das größere "Paradoxon" ergibt sich hier, wenn Sie die (in diesem Fall einseitigen) Intervalle für eine Ortsverschiebung berechnen - in jedem Fall wird 0 ausgeschlossen (die Intervalle sind nicht in jedem Fall identisch). Dies führt uns zu der Schlussfolgerung, dass sich die Position nach rechts verschiebt, wenn wir über die Datenspalten von A nach B nach C nach D gehen, und dasselbe geschieht erneut, wenn wir zurück nach A gehen.
Mit einer größeren Version dieser Datensätze (ähnliche Werteverteilung, aber mehr) können wir eine Signifikanz (eins oder zwei) bei wesentlich kleineren Signifikanzniveaus erhalten, so dass man zum Beispiel Bonferroni-Anpassungen verwenden und trotzdem jede abschließen kann Gruppe kam aus einer Verteilung, die von der nächsten verschoben wurde.
Dies zeigt uns unter anderem, dass eine Ablehnung im Wilcoxon-Mann-Whitney von sich aus nicht automatisch die Behauptung einer Standortverschiebung rechtfertigt.
(Obwohl dies für diese Daten nicht der Fall ist, ist es auch möglich, Mengen zu konstruieren, bei denen die Stichprobenmittelwerte konstant sind, während Ergebnisse wie oben gelten.)
Hinzugefügt in der späteren Bearbeitung: Ein sehr informativer und lehrreicher Hinweis dazu ist
Brown BM und Hettmansperger TP. (2002)
Kruskal-Wallis, mehrere Comaprisons und Efron-Würfel.
Aust & N.ZJ Stat. , 44 , 427-438.
5) Ein anderes Paar von verwandten counterexamples kommen hier - wo ein ANOVA von Bedeutung sein können, aber alle paarweise Vergleiche sind nicht (interpretiert zwei verschiedene Arten gibt, verschiedene Gegenbeispiele ergeben).
Es gibt also mehrere Gegenbeispiel-Datensätze, die Missverständnissen widersprechen, auf die man stoßen könnte.
Wie Sie sich vorstellen können, konstruiere ich solche Gegenbeispiele ziemlich oft (wie viele andere Leute auch), normalerweise nach Bedarf. Bei einigen dieser häufigen Missverständnisse können Sie die Gegenbeispiele so charakterisieren, dass nach Belieben neue generiert werden können (obwohl dies häufig mit einem bestimmten Arbeitsaufwand verbunden ist).
Wenn es bestimmte Arten von Dingen gibt, die Sie interessieren könnten, könnte ich in der Lage sein, mehr solcher Sets (meine oder die anderer Leute) zu lokalisieren oder vielleicht sogar einige zu konstruieren.
Ein nützlicher Trick zum Generieren zufälliger Regressionsdaten mit gewünschten Koeffizienten ist der folgende (der Teil in Klammern ist ein Überblick über den R-Code):
a) Stellen Sie die gewünschten Koeffizienten ohne Rauschen ein (
y = b0 + b1 * x1 + b2 * x2
)b) Fehlerbegriff mit gewünschten Eigenschaften erzeugen (
n = rnorm(length(y),s=0.4
)c) eine Rauschregression auf demselben x einrichten (
nfit = lm(n~x1+x2)
)d) Addiere die Residuen davon zur y-Variablen (
y = y + nfit$residuals
)Getan. (das Ganze kann tatsächlich in ein paar Zeilen von R gemacht werden)
quelle
Im Hinblick auf das Generieren (z. B. Ihrer eigenen) Datensätze für ähnliche Zwecke könnte Folgendes für Sie von Interesse sein:
Soweit Datensätze , die einfach sind , verwendet tricky / kontra-intuitive Phänomene in der Statistik zu demonstrieren, gibt es eine Menge, aber Sie müssen festlegen , welche Phänomene Sie demonstrieren wollen. Im Hinblick auf die Demonstration des Simpson-Paradoxons ist beispielsweise der Berkeley-Falldatensatz für geschlechtsspezifische Abweichungen sehr berühmt.
Für eine große Diskussion über die berühmtesten Datensatz von allen finden Sie unter : Was Aspekte der „Iris“ Datensatz als Beispiel / Lehre / Testdataset es so erfolgreich machen .
quelle
In der Arbeit "Let 's Put the Garbage-Can Regressions and Garbage-Can Probits Where Do You Belong" (C. Achen, 2004) erstellt der Autor einen synthetischen Datensatz mit einer Nichtlinearität, der reale Fälle von Daten widerspiegeln soll Möglicherweise ist während der Messung ein Codierungsfehler aufgetreten (z. B. eine Verzerrung bei der Zuordnung von Daten zu kategorialen Werten oder falsche Quantisierungsverfahren).
Die synthetischen Daten werden aus einer perfekten linearen Beziehung mit zwei positiven Koeffizienten erstellt. Wenn Sie jedoch den nichtlinearen Codierungsfehler anwenden, erzeugen Standardregressionstechniken einen Koeffizienten mit falschem Vorzeichen und auch mit statistischer Signifikanz (und dies würde sich noch verstärken, wenn Sie haben einen größeren synthetischen Datensatz gebootst.
Obwohl es sich nur um einen kleinen synthetischen Datensatz handelt, zeigt das Papier eine großartige Widerlegung der naiven Art der Regression "Dump alles, was mir auf der rechten Seite einfällt", und zeigt dies auch bei winzigen / subtilen Nichtlinearitäten (die tatsächlich recht sind) B. bei Codierungsfehlern oder Quantisierungsfehlern) kann es zu irreführenden Ergebnissen kommen, wenn Sie nur der Ausgabe der Standard-Regressionsdrucktastenanalyse vertrauen.
quelle