Mir ist klar, dass dies subjektiv ist, aber ich dachte, es wäre schön, über unsere Lieblingsdatensätze zu sprechen und was sie unserer Meinung nach interessant macht. Es gibt eine Fülle von Daten, und was ich zusammen mit allen APIs (z. B. Datamob ) und klassischen Datasets (z. B. R-Daten ) für sehr interessante Antworten halten könnte.
Zum Beispiel mochte ich Datasets wie das "Boston Housing" -Dataset (ungeachtet der unglücklichen Folgen) und "mtcars" immer wegen ihrer Vielseitigkeit. Vom pädagogischen Standpunkt aus kann man die Vorzüge einer Vielzahl statistischer Techniken zeigen, die sie verwenden. und Anderson / Fischers Iris-Datensatz wird immer einen Platz in meinem Herzen haben.
Gedanken?
Antworten:
Die Studie zum niedrigen Geburtsgewicht
Dies ist einer der Datensätze in Hosmers und Lemeshows Lehrbuch über angewandte logistische Regression (2000, Wiley, 2. Aufl.). Ziel dieser prospektiven Studie war es, Risikofaktoren für die Geburt eines Kindes mit niedrigem Geburtsgewicht (unter 2.500 Gramm) zu identifizieren. Es wurden Daten zu 189 Frauen erhoben, von denen 59 Babys mit niedrigem Geburtsgewicht und 130 Babys mit normalem Geburtsgewicht hatten. Vier Variablen, von denen angenommen wurde, dass sie von Bedeutung sind, waren Alter, Gewicht der Testperson in ihrer letzten Menstruationsperiode, Rasse und die Anzahl der Arztbesuche während des ersten Schwangerschaftstrimesters.
Es ist in R als
data(birthwt, package="MASS")
oder in Stata mit verfügbarwebuse lbw
. Eine Textversion erscheint hier: lowbwt.dat ( Beschreibung ). Es ist zu beachten, dass es mehrere Versionen dieses Datensatzes gibt, da er auf eine Fall-Kontroll-Studie (1-1 oder 1-3, abhängig vom Alter) erweitert wurde, wie von Hosmer und Lemeshow in ALR, Kapitel 7, veranschaulicht.Ich habe aus folgenden Gründen Einführungskurse unterrichtet, die auf diesem Datensatz basierten:
Andere Punkte, die in Abhängigkeit von der Zielgruppe und dem Kenntnisstand der Statistiksoftware oder der Statistik im Allgemeinen hervorgehoben werden können.
In Bezug auf den in R verfügbaren Datensatz werden kategoriale Prädiktoren als ganze Zahlen bewertet (z. B. haben wir für die ethnische Zugehörigkeit der Mutter '1' = weiß, '2' = schwarz, '3' = andere), ungeachtet der Tatsache, dass einige Prädiktoren auf natürliche Weise geordnet sind (z. B. Anzahl früherer vorzeitiger Arbeiten oder Anzahl der Arztbesuche) oder die Verwendung expliziter Bezeichnungen (es ist immer eine gute Idee, Ja / Nein anstelle von 1/0 für binäre Variablen zu verwenden, auch wenn dies nicht der Fall ist.) nichts an der Designmatrix ändern!) fehlen einfach. Daher ist es leicht zu diskutieren, welche Probleme auftreten können, wenn Ebenen oder Maßeinheiten in der Datenanalyse ignoriert werden.
Variablen gemischter Typen sind interessant, wenn es darum geht, eine explorative Analyse durchzuführen und zu diskutieren, welche Art von grafischen Darstellungen zum Zusammenfassen von univariaten, bivariaten oder trivariaten Beziehungen geeignet sind. Ebenso ist das Erzeugen netter Übersichtstabellen und allgemeinerer Berichte ein weiterer interessanter Aspekt dieses Datensatzes (aber der
Hmisc::summary.formula
Befehl macht es unter R so einfach).Hosmer und Lemeshow berichteten, dass die tatsächlichen Daten geändert wurden, um die Vertraulichkeit der Probanden zu schützen (S. 25). Es könnte interessant sein, Fragen der Vertraulichkeit von Daten zu erörtern, wie es in einem unserer früheren Journal Clubs geschehen ist , aber siehe dessen Transkription . (Ich muss zugeben, dass ich damit nie auf viele Details eingehen werde.)
Es ist einfach, einige fehlende oder fehlerhafte Werte einzufügen (die im realen Leben eines Statistikers häufig vorkommen), die dazu führen, dass (a) ihre Erkennung über das Codebuch (
Hmisc::describe
oder Stata'scodebook
) oder explorative Grafiken diskutiert wird ( zeichnen Sie Ihre Daten immer zuerst auf!). und (b) mögliche Abhilfe (Datenimputation, listenweises Löschen oder paarweises Assoziationsmaß usw.).quelle
Natürlich sind die Anscombe 4-Datensätze für den Unterricht sehr gut geeignet - sie sehen sehr unterschiedlich aus, weisen jedoch identische einfache statistische Eigenschaften auf.
Ich empfehle auch KDD Cup-Datensätze http://www.kdd.org/kddcup/, da sie gut untersucht wurden und es viele Lösungen gibt, damit die Schüler ihre Ergebnisse vergleichen und sehen können, wie sie rangieren.
In meinem Data Mining-Kurs habe ich einen Microarray-Datensatzwettbewerb bereitgestellt, der von Professoren verwendet werden kann. Http://www.kdnuggets.com/data_mining_course/
quelle
Viele meiner Kurse zur statistischen Analyse in Cal Poly haben den Datensatz "Iris" verwendet, der bereits in R enthalten ist. Er enthält kategoriale Variablen und stark korrelierte Variablen.
quelle
Der von Harrell in "Regression Modeling Strategies" verwendete Titanic-Datensatz. Ich benutze eine vereinfachte Version seiner Analyse, um die logistische Regression und das Überleben anhand von Geschlecht, Klasse und Alter zu erklären.
Der in "Experimentelles Design und Datenanalyse für Biologen" von Gerry Quinn und Mick Keough diskutierte Loyn-Datensatz enthält schöne Probleme, die eine Transformation für multiple lineare Regression erfordern.
quelle