Anscombe-ähnliche Datensätze mit demselben Box- und Whisker-Diagramm (Mittelwert / Standard / Median / MAD / Min / Max)

EDIT: Da diese Frage aufgeblasen wurde, eine Zusammenfassung: Finden verschiedener aussagekräftiger und interpretierbarer Datensätze mit derselben gemischten Statistik (Mittelwert, Median, Mittlerer Bereich und die damit verbundenen Streuungen und Regressionen).

Das Anscombe Quartett (siehe ? Purpose hoher Abmessungsdaten zu visualisieren ) ist ein bekanntes Beispiel von vier - Datensätzen mit dem gleichen Rand Mittelwert / Standardabweichung (auf der vier und die vier , getrennt) und die gleiche OLS linear fit , Regression und Restsumme der Quadrate und Korrelationskoeffizient . Die Statistiken vom Typ (Rand und Gelenk) sind also gleich, während die Datensätze sehr unterschiedlich sind. $x$ $y$ $x$ $y$ $R^2$ $\ell_2$

BEARBEITEN (aus OP-Kommentaren) Lassen Sie die kleine Datenmenge auseinander und lassen Sie mich einige Interpretationen vorschlagen. Satz 1 kann als eine standardmäßige lineare (affine, korrekte) Beziehung zum verteilten Rauschen angesehen werden. Satz 2 zeigt eine saubere Beziehung, die der Höhepunkt einer Anpassung höheren Grades sein könnte. Satz 3 zeigt eine klare lineare statistische Abhängigkeit mit einem Ausreißer. Satz 4 ist kniffliger: Der Versuch, aus "vorherzusagen", scheint mit einem Scheitern verbunden zu sein. Das Design von kann ein Hysterese-Phänomen mit einem unzureichenden Wertebereich, einen Quantisierungseffekt (das könnte zu stark quantisiert sein) oder einen Wechsel der abhängigen und unabhängigen Variablen durch den Benutzer aufweisen. $y$ $x$ $x$ $x$

Daher verbergen Zusammenfassungsfunktionen sehr unterschiedliche Verhaltensweisen. Satz 2 könnte besser mit einer Polynomanpassung behandelt werden. Set 3 mit Methoden ( oder ähnliches) sowie Set 4. Man könnte sich fragen, ob andere Kostenfunktionen oder Diskrepanzindikatoren die Unterscheidung zwischen regeln oder zumindest verbessern könnten. BEARBEITEN (aus OP-Kommentaren): In dem Blog-Beitrag Curious Regressions heißt es: $\ell_2$ $\ell_1$

Übrigens habe ich erfahren, dass Frank Anscombe nie verraten hat, wie er auf diese Datensätze gekommen ist. Wenn Sie der Meinung sind, dass es eine leichte Aufgabe ist, alle zusammenfassenden Statistiken und die Regressionsergebnisse gleich zu erhalten, probieren Sie es aus!

In Datensätzen, die für einen ähnlichen Zweck wie das Quartett von Anscombe erstellt wurden , werden mehrere interessante Datensätze angegeben, beispielsweise mit denselben quantilbasierten Histogrammen. Ich habe keine Mischung aus aussagekräftigen Beziehungen und gemischten Statistiken gesehen.

Meine Frage ist: Gibt es bivariate (oder trivariate, um die Visualisierung aufrechtzuerhalten) Anscombe-ähnliche Datensätze, so dass zusätzlich zu den gleichen Statistiken $\ell_2$ :

Ihre Diagramme können als Beziehung zwischen und interpretiert werden , als ob man nach einem Gesetz zwischen Messungen suchen würde. $x$ $y$
Sie besitzen die gleichen (robusteren) (gleicher Median und Median der absoluten Abweichung). $\ell_1$
Sie haben die gleichen Begrenzungsrahmen: min, max (und daher type Mid- und Mid-Span-Statistiken). $\ell_\infty$

Solche Datensätze hätten die gleichen "Box-and-Whiskers" -Diagrammzusammenfassungen (mit min, max, median, medianer absoluter Abweichung / MAD, Mittelwert und Standard) für jede Variable und wären in der Interpretation immer noch sehr unterschiedlich.

Noch interessanter wäre es, wenn für die Datensätze die geringste absolute Regression gleich wäre (aber vielleicht frage ich bereits zu viel). Sie könnten als Einschränkung dienen, wenn es um robuste oder nicht robuste Regression geht, und dabei helfen, Richard Hammings Zitat zu berücksichtigen:

Der Zweck des Rechnens ist Einsicht, nicht Zahlen

BEARBEITEN (aus OP-Kommentaren) Ähnliche Probleme werden bei der Generierung von Daten mit identischen Statistiken, aber unterschiedlichen Grafiken , Sangit Chatterjee & Aykut Firata, The American Statistician, 2007, oder beim Klonen von Daten behandelt: Generieren von Datensätzen mit genau derselben multiplen linearen Regressionsanpassung, J. Aust. N.-Z. Stat. J. 2009.

In Chatterjee (2007) besteht der Zweck darin, neue Paare mit den gleichen Mitteln und Standardabweichungen vom ursprünglichen Datensatz zu generieren und gleichzeitig die verschiedenen Zielfunktionen "Diskrepanz / Unähnlichkeit" zu maximieren. Da diese Funktionen nicht konvex oder nicht differenzierbar sein können, verwenden sie genetische Algorithmen (GA). Wichtige Schritte bestehen in der Orthonormalisierung, die mit der Erhaltung des Mittelwerts und der (Einheits-) Varianz sehr konsistent ist. Die Zahlen des Papiers (die Hälfte des Papierinhalts) überlagern Eingabe- und GA-Ausgabedaten. Meiner Meinung nach verlieren GA-Ausgänge viel von der ursprünglichen intuitiven Interpretation. $(x,y)$

Und technisch gesehen , weder der Median noch die Mitteltöner erhalten bleibt, und das Papier nicht Renormierung Verfahren erwähnen , das erhalten würde , und Statistiken. $\ell_2$ $\ell_1$ $\ell_\infty$

regression descriptive-statistics curve-fitting estimators Laurent Duval
quelle

Wenn Sie nur nach univariaten Datensätzen mit denselben Boxplots suchen, habe ich vor einiger Zeit einen Satz in einer Antwort auf eine Frage angegeben, basierend auf der Entwicklung in einem Artikel. Warte, ich werde es ausgraben. (bearbeiten) ... hier . Es ist einfach, mehr Datensätze mit den gleichen Eigenschaften zu erstellen ... Darauf gehe ich in einer anderen Antwort hier ein .

Glen_b

x

$x$

y

$y$

x

$x$

y

$y$

Chatterjee & Firat ( The American Statistician , 2007) , verbunden mit dieser Antwort auf diese Frage , bieten einen eher allgemeinen genetischen Algorithmus, den Sie problemlos an Ihre Zwecke anpassen können sollten.

S. Kolassa - Wiedereinsetzung von Monica am

Die Darstellungen sind Beispiele für bedeutungslose Bevölkerungsmomente, wenn Verteilungsmomente ignoriert werden. Mittelwert, Standardabweichung, Schiefe und andere Populationsmomente entsprechen nicht den erwarteten Werten, Standardabweichungen, Schiefe und anderen Momenten der Verteilungen, die diese Populationen am besten beschreiben. Wenn die obigen Diagramme als Verteilungen von x-Werten und y-Werten betrachtet werden, sind sie alle unterschiedlich und weisen daher unterschiedliche Verteilungsmomente auf. Dies ist schlimmer als wenn man nur die Reststruktur ignoriert, was vielleicht der Punkt war, kann man auch nicht ungestraft ignorieren.

Carl

Anscombe-ähnliche Datensätze mit demselben Box- und Whisker-Diagramm (Mittelwert / Standard / Median / MAD / Min / Max)

Antworten: