Ich arbeite an einem Projekt und benötige Ressourcen, um mich auf den neuesten Stand zu bringen.
Der Datensatz umfasst etwa 35000 Beobachtungen zu etwa 30 Variablen. Etwa die Hälfte der Variablen ist kategorisch, wobei einige viele verschiedene mögliche Werte haben. Wenn Sie also die kategorialen Variablen in Dummy-Variablen aufteilen, haben Sie viel mehr als 30 Variablen. Aber wahrscheinlich immer noch in der Größenordnung von ein paar hundert max. (n> p).
Die Antwort, die wir vorhersagen möchten, ist ordinal mit 5 Ebenen (1,2,3,4,5). Prädiktoren sind eine Mischung aus kontinuierlich und kategorisch, jeweils etwa die Hälfte. Dies sind meine bisherigen Gedanken / Pläne: 1. Behandeln Sie die Antwort als kontinuierlich und führen Sie eine lineare Vanille-Regression durch. 2. Führen Sie eine nominale und ordinale logistische und Probit-Regression durch. 3. Verwenden Sie MARS und / oder eine andere Variante der nichtlinearen Regression
Ich bin mit linearer Regression vertraut. MARS wird von Hastie und Tibshirani gut genug beschrieben. Aber ich bin ratlos, wenn es um ordinale Logit / Probit geht, insbesondere bei so vielen Variablen und einem großen Datensatz.
Das r-Paket glmnetcr scheint meine bisher beste Wahl zu sein, aber die Dokumentation reicht kaum aus, um mich dahin zu bringen, wo ich sein muss.
Wo kann ich mehr erfahren?
quelle
Antworten:
Ich schlage dieses Tutorial auf bestelltem Logit vor: http://www.ats.ucla.edu/stat/r/dae/ologit.htm
Es zeigt die Verwendung von
polr
imMASS
Paket und erklärt auch die Annahmen und die Interpretation der Ergebnisse.quelle
Ein ziemlich leistungsfähiges R-Paket für die Regression mit einer ordinalen kategorialen Antwort ist VGAM auf dem CRAN. Die Vignette enthält einige Beispiele für ordinale Regression, aber zugegebenermaßen habe ich sie noch nie an einem so großen Datensatz ausprobiert, sodass ich nicht abschätzen kann, wie lange es dauern kann. Weitere Informationen zu VGAM finden Sie möglicherweise auf der Seite des Autors . Alternativ können Sie sich Laura Thompsons Begleiterin zu Agrestis Buch "Categorical Data Analysis" ansehen . Kapitel 7 von Thompsons Buch beschreibt kumulative Logit-Modelle, die häufig mit ordinalen Antworten verwendet werden.
Hoffe das hilft!
quelle
Wenn Sie mit der ordinalen Regression überhaupt nicht vertraut sind, würde ich versuchen, zuerst das Kapitel Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) zu diesem Thema zu lesen - Obwohl das Buch nicht für R geschrieben wurde, ist es sehr gut darin, die allgemeine Logik und die "Do's" und "Do Nots" zu vermitteln.
Als Frage: Was genau sind Ihre Antwortkategorien? Wenn es sich um eine Art Skala handelt, wie "gut - schlecht", wäre es in Ordnung, eine lineare Regression zu verwenden (Marktforschung tut dies ständig ...), aber wenn die Elemente disjunkter sind, ist eine ordinale Regression möglicherweise besser . Ich erinnere mich nur schwach daran, dass in einigen Büchern über strukturelle Äquatiotionsmodellierung erwähnt wurde, dass die lineare Regression für gute Skalen besser war als für Probit - aber ich kann mich im Moment nicht an das Buch erinnern, sorry!
Das schwerwiegendste Problem könnte die Anzahl der Dummy-Variablen sein - ein paar hundert Dummy-Variablen machen die Analyse langsam, schwer zu interpretieren und wahrscheinlich instabil - gibt es genug Fälle für jede Dummy / Dummy-Kombination?
quelle
Eine aus sozialwissenschaftlicher Sicht verfasste Standardreferenz ist das Buch Limited Dependent Variables von J Scott Long . Es geht viel tiefer, als Tabachnik in einer anderen Antwort vorgeschlagen hat : Tabachnik ist bestenfalls ein Kochbuch mit wenig bis gar keinen Erklärungen für das "Warum", und es scheint, als würden Sie davon profitieren, dies genauer herauszufinden, das in Longs zu finden ist Buch. Die ordinale Regression sollte in den meisten einführenden ökonometrischen Kursen (Wooldridges Querschnitts- und Paneldaten sind ein großartiges Buch für Hochschulabsolventen) sowie in quantitativen sozialwissenschaftlichen Kursen (Soziologie, Psychologie) behandelt werden, obwohl ich mir vorstellen würde, dass letztere zurückkehren werden zu Longs Buch.
Angesichts der Tatsache, dass Ihre Anzahl von Variablen viel niedriger als die Stichprobengröße ist, ist das R-Paket, nach dem Sie suchen sollten, wahrscheinlich
ordinal
eher alsglmnetcr
. In einer anderen Antwort wurde erwähnt, dass Sie diese Funktionalität in einem allgemeinerenMASS
Paket finden können.quelle