Was sind gute Datensätze zur Veranschaulichung bestimmter Aspekte der statistischen Analyse?

16

Mir ist klar, dass dies subjektiv ist, aber ich dachte, es wäre schön, über unsere Lieblingsdatensätze zu sprechen und was sie unserer Meinung nach interessant macht. Es gibt eine Fülle von Daten, und was ich zusammen mit allen APIs (z. B. Datamob ) und klassischen Datasets (z. B. R-Daten ) für sehr interessante Antworten halten könnte.

Zum Beispiel mochte ich Datasets wie das "Boston Housing" -Dataset (ungeachtet der unglücklichen Folgen) und "mtcars" immer wegen ihrer Vielseitigkeit. Vom pädagogischen Standpunkt aus kann man die Vorzüge einer Vielzahl statistischer Techniken zeigen, die sie verwenden. und Anderson / Fischers Iris-Datensatz wird immer einen Platz in meinem Herzen haben.

Gedanken?

DA
quelle
2
Derjenige
3
Willkommen bei Cross Validated! Dies ist eine Q & A-Site für Fragen mit echten Antworten, kein Diskussionsforum. Daher glaube ich nicht, dass dies die Art von Frage ist, die wir auf dieser Site haben wollen. Bitte lesen Sie die FAQ .
Michael McGowan
4
Mir ist bewusst, dass es sich um eine Frage- und Antwortrunde handelt, aber mit Fragen wie "Was ist Ihr bevorzugter Statistik-Cartoon?" Als ich hoch gewählt wurde, dachte ich, dass dies nicht schrecklich unangemessen wäre. Insbesondere in pädagogischer Hinsicht kann es hilfreich sein, wenn jemand etwas über Datenanalyse und Erkundungstechniken lernt, Feedback zu öffentlichen Datensätzen zu erhalten, die eine reichhaltige Struktur aufweisen und viel Geschichte und Forschung hinter sich haben.
DA
4
Ich bin geneigt, die Community entscheiden zu lassen, ob dies abgeschlossen werden muss (als nicht konstruktiv) oder nicht, obwohl ich hinzufügen möchte, dass gründliche und argumentative Antworten durchaus als Unterstützung für zukünftige Fragen zu bestimmten Aspekten der Datenanalyse dienen könnten. Ich konvertiere dies in der Zwischenzeit in CW, weil es offensichtlich keine einzige beste Antwort gibt.
chl
2
Diese Frage und ihre Antworten sind für mich sehr nützlich. Bitte nicht entfernen.
23.

Antworten:

12

Die Studie zum niedrigen Geburtsgewicht

Dies ist einer der Datensätze in Hosmers und Lemeshows Lehrbuch über angewandte logistische Regression (2000, Wiley, 2. Aufl.). Ziel dieser prospektiven Studie war es, Risikofaktoren für die Geburt eines Kindes mit niedrigem Geburtsgewicht (unter 2.500 Gramm) zu identifizieren. Es wurden Daten zu 189 Frauen erhoben, von denen 59 Babys mit niedrigem Geburtsgewicht und 130 Babys mit normalem Geburtsgewicht hatten. Vier Variablen, von denen angenommen wurde, dass sie von Bedeutung sind, waren Alter, Gewicht der Testperson in ihrer letzten Menstruationsperiode, Rasse und die Anzahl der Arztbesuche während des ersten Schwangerschaftstrimesters.

Es ist in R als data(birthwt, package="MASS")oder in Stata mit verfügbar webuse lbw. Eine Textversion erscheint hier: lowbwt.dat ( Beschreibung ). Es ist zu beachten, dass es mehrere Versionen dieses Datensatzes gibt, da er auf eine Fall-Kontroll-Studie (1-1 oder 1-3, abhängig vom Alter) erweitert wurde, wie von Hosmer und Lemeshow in ALR, Kapitel 7, veranschaulicht.

Ich habe aus folgenden Gründen Einführungskurse unterrichtet, die auf diesem Datensatz basierten:

  • Es ist aus historischer und epidemiologischer Sicht interessant (Daten wurden 1986 gesammelt); Es sind keine medizinischen oder statistischen Vorkenntnisse erforderlich, um die Hauptideen zu verstehen und um welche Fragen es sich bei dieser Studie handelt.
  • χ2
  • Es ermöglicht die Diskussion verschiedener Modellierungsperspektiven (erklärende oder prädiktive Ansätze) und die Implikation des Stichprobenschemas bei der Entwicklung von Modellen (Schichtung / Matched Cases).

Andere Punkte, die in Abhängigkeit von der Zielgruppe und dem Kenntnisstand der Statistiksoftware oder der Statistik im Allgemeinen hervorgehoben werden können.

  1. In Bezug auf den in R verfügbaren Datensatz werden kategoriale Prädiktoren als ganze Zahlen bewertet (z. B. haben wir für die ethnische Zugehörigkeit der Mutter '1' = weiß, '2' = schwarz, '3' = andere), ungeachtet der Tatsache, dass einige Prädiktoren auf natürliche Weise geordnet sind (z. B. Anzahl früherer vorzeitiger Arbeiten oder Anzahl der Arztbesuche) oder die Verwendung expliziter Bezeichnungen (es ist immer eine gute Idee, Ja / Nein anstelle von 1/0 für binäre Variablen zu verwenden, auch wenn dies nicht der Fall ist.) nichts an der Designmatrix ändern!) fehlen einfach. Daher ist es leicht zu diskutieren, welche Probleme auftreten können, wenn Ebenen oder Maßeinheiten in der Datenanalyse ignoriert werden.

  2. Variablen gemischter Typen sind interessant, wenn es darum geht, eine explorative Analyse durchzuführen und zu diskutieren, welche Art von grafischen Darstellungen zum Zusammenfassen von univariaten, bivariaten oder trivariaten Beziehungen geeignet sind. Ebenso ist das Erzeugen netter Übersichtstabellen und allgemeinerer Berichte ein weiterer interessanter Aspekt dieses Datensatzes (aber der Hmisc::summary.formulaBefehl macht es unter R so einfach).

  3. Hosmer und Lemeshow berichteten, dass die tatsächlichen Daten geändert wurden, um die Vertraulichkeit der Probanden zu schützen (S. 25). Es könnte interessant sein, Fragen der Vertraulichkeit von Daten zu erörtern, wie es in einem unserer früheren Journal Clubs geschehen ist , aber siehe dessen Transkription . (Ich muss zugeben, dass ich damit nie auf viele Details eingehen werde.)

  4. Es ist einfach, einige fehlende oder fehlerhafte Werte einzufügen (die im realen Leben eines Statistikers häufig vorkommen), die dazu führen, dass (a) ihre Erkennung über das Codebuch ( Hmisc::describeoder Stata's codebook) oder explorative Grafiken diskutiert wird ( zeichnen Sie Ihre Daten immer zuerst auf!). und (b) mögliche Abhilfe (Datenimputation, listenweises Löschen oder paarweises Assoziationsmaß usw.).

U / min chl
quelle
1 Vielen Dank für eine beispielhafte Antwort vorausgesetzt, zeigt dieses Thema kann nützlich sein und bietet einen Standard der Darstellung , dass andere Antworten können (und sollen) streben.
Whuber
Das ist fantastisch und genau das, wonach ich gesucht habe, um die Frage zu stellen. Ich danke Ihnen für Ihre wertvolle Einsicht.
DA
5

Natürlich sind die Anscombe 4-Datensätze für den Unterricht sehr gut geeignet - sie sehen sehr unterschiedlich aus, weisen jedoch identische einfache statistische Eigenschaften auf.

Ich empfehle auch KDD Cup-Datensätze http://www.kdd.org/kddcup/, da sie gut untersucht wurden und es viele Lösungen gibt, damit die Schüler ihre Ergebnisse vergleichen und sehen können, wie sie rangieren.

In meinem Data Mining-Kurs habe ich einen Microarray-Datensatzwettbewerb bereitgestellt, der von Professoren verwendet werden kann. Http://www.kdnuggets.com/data_mining_course/

Gregory Piatetsky
quelle
Weitere Datensätze, die ähnlich wie das Anscombe-Quartett für pädagogische Zwecke entwickelt wurden, finden Sie in dieser Frage .
Silverfish
3

Viele meiner Kurse zur statistischen Analyse in Cal Poly haben den Datensatz "Iris" verwendet, der bereits in R enthalten ist. Er enthält kategoriale Variablen und stark korrelierte Variablen.

Kurtis Voris
quelle
Würde es Ihnen etwas ausmachen, Ihre letzten Punkte zu erweitern: Wie hilft dieser Datensatz beim Lehren von Statistik? (AFAICT, der Iris-Datensatz hat nur eine kategoriale Variable, nämlich Iris-Klasse.)
Chl
Hier ist ein Thread, der sich ausschließlich mit der Verwendung des Iris-Datensatzes im Unterricht befasst .
Silverfish
3

Der von Harrell in "Regression Modeling Strategies" verwendete Titanic-Datensatz. Ich benutze eine vereinfachte Version seiner Analyse, um die logistische Regression und das Überleben anhand von Geschlecht, Klasse und Alter zu erklären.

Der in "Experimentelles Design und Datenanalyse für Biologen" von Gerry Quinn und Mick Keough diskutierte Loyn-Datensatz enthält schöne Probleme, die eine Transformation für multiple lineare Regression erfordern.

Luis Apiolaza
quelle