Wie passe ich ein lineares Modell an, wenn eine stetige abhängige Variable y und unabhängige Variablen einschließlich einer Ordinalvariablen X 1 gegeben sind R
? Gibt es Papiere zu diesem Modelltyp?
quelle
Wie passe ich ein lineares Modell an, wenn eine stetige abhängige Variable y und unabhängige Variablen einschließlich einer Ordinalvariablen X 1 gegeben sind R
? Gibt es Papiere zu diesem Modelltyp?
@ Scortchi hat Sie mit dieser Antwort auf Coding für eine bestellte Kovariate abgedeckt . Ich habe die Empfehlung zu meiner Antwort auf die Auswirkung von zwei demografischen IVs auf die Umfrageantworten (Likert-Skala) wiederholt . Insbesondere wird empfohlen, das ordPens-Paket von Gertheiss (2013) zu verwenden und sich für theoretische Hintergrundinformationen und eine Simulationsstudie an Gertheiss und Tutz (2009a) zu wenden .
Die spezifische Funktion, die Sie wahrscheinlich wollen, ist ordSmooth
* . Dies glättet im Wesentlichen Dummy-Koeffizienten über Ebenen von Ordinalvariablen hinweg, so dass sie sich weniger von denen benachbarter Ränge unterscheiden, was die Überanpassung verringert und die Vorhersagen verbessert. Es führt im Allgemeinen eine Schätzung eines Regressionsmodells für kontinuierliche (oder in ihren Begriffen metrische) Daten durch, wenn die Daten tatsächlich ordinal sind, oder ist (manchmal viel) besser als die maximale Wahrscheinlichkeit (dh gewöhnliche kleinste Quadrate in diesem Fall). Es scheint mit allen Arten von verallgemeinerten linearen Modellen kompatibel zu sein und ermöglicht die Eingabe von nominalen und kontinuierlichen Prädiktoren als separate Matrizen.
Einige zusätzliche Referenzen von Gertheiss, Tutz und Kollegen sind verfügbar und unten aufgeführt. Einige davon können Alternativen enthalten - sogar Gertheiss und Tutz (2009a) diskutieren das Ridge Reroughing als eine andere Alternative. Ich habe noch nicht alles selbst durchgegraben, aber es genügt zu sagen, dass dies @ Eriks Problem von zu wenig Literatur über ordinale Prädiktoren löst!
Verweise
- Gertheiss, J. (2013, 14. Juni). ordPens: Auswahl und / oder Glättung von ordinalen Prädiktoren , Version 0.2-1. Abgerufen von http://cran.r-project.org/web/packages/ordPens/ordPens.pdf .
- J. Gertheiss, S. Hogger, C. Oberhauser & G. Tutz (2011). Auswahl von ordinal skalierten unabhängigen Variablen mit Anwendungen zur internationalen Klassifikation von funktionierenden Kernsätzen. Zeitschrift der Royal Statistical Society: Reihe C (Angewandte Statistik), 60 (3), 377–395.
- Gertheiss, J. & Tutz, G. (2009a). Bestrafte Regression mit ordinalen Prädiktoren. International Statistical Review, 77 (3), 345–365. Abgerufen von http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf .
- Gertheiss, J. & Tutz, G. (2009b). Überwachte Merkmalsauswahl bei der massenspektrometrischen proteomischen Profilierung durch blockweises Boosten. Bioinformatics, 25 (8), 1076–1077.
- Gertheiss, J. & Tutz, G. (2009c). Variable Skalierung und Methoden für den nächsten Nachbarn. Journal of Chemometrics, 23 (3), 149–151. - Gertheiss, J. & Tutz, G. (2010). Sparsame Modellierung kategorialer erklärender Variablen.
Die Annalen der angewandten Statistik, 4 , 2150–2180.
- B. Hofner, T. Hothorn, T. Kneib & M. Schmid (2011). Ein Framework für eine unvoreingenommene Modellauswahl basierend auf Boosten. Journal of Computational and Graphical Statistics, 20 (4), 956–971. Abgerufen von http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf .
- Oelker, M.-R., Gertheiss, J. & Tutz, G. (2012). Regularisierung und Modellauswahl mit kategorialen Prädiktoren und Effektmodifikatoren in verallgemeinerten linearen Modellen. Statistisches Amt: Technische Berichte, Nr. 122 . Abgerufen von http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf .
- Oelker, M.-R. & Tutz, G. (2013). Eine allgemeine Familie von Strafen für die Kombination verschiedener Arten von Strafen in verallgemeinerten strukturierten Modellen. Statistisches Amt: Technische Berichte, Nr. 139 . Abgerufen von http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf .
- Petry, S., Flexeder, C. & Tutz, G. (2011). Paarweise verschmolzenes Lasso. Statistisches Amt: Technische Berichte, Nr. 102. Abgerufen von http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf .
- Rufibach, K. (2010). Ein aktiv eingestellter Algorithmus zum Schätzen von Parametern in verallgemeinerten linearen Modellen mit geordneten Prädiktoren. Computational Statistics & Data Analysis, 54 (6), 1442–1456. Abgerufen von http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail .
- Tutz, G. (2011, Oktober). Regularisierungsmethoden für kategoriale Daten. München: Ludwig-Maximilians-Universität. Abgerufen von http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf .
- Tutz, G. & Gertheiss, J. (2013). Bewertungsskalen als Prädiktoren - Die alte Frage der Skalenebene und einige Antworten.Psychometrika , 1-20.
Wenn es mehrere Prädiktoren gibt und der interessierende Prädiktor ordinal ist, ist es oft schwierig zu entscheiden, wie die Variable codiert werden soll. Die Codierung als kategorisch führt zum Verlust der Ordnungsinformationen, während die Codierung als numerisch die Auswirkungen der geordneten Kategorien linearisiert, was weit von ihren tatsächlichen Auswirkungen entfernt sein kann. Für erstere wurde die isotonische Regression vorgeschlagen, um die Nicht-Monotonie zu beheben. Es handelt sich jedoch um ein datengesteuertes Modellauswahlverfahren, das wie viele andere datengesteuerte Verfahren eine sorgfältige Bewertung des endgültig angepassten Modells und der Signifikanz erfordert seiner Parameter. Bei letzteren können Splines die Annahme der starren Linearität teilweise mildern, aber Zahlen müssen immer noch geordneten Kategorien zugewiesen werden, und die Ergebnisse sind von diesen Entscheidungen abhängig. In unserer Arbeit (Li und Shepherd, 2010, Einleitung, Absätze 3-5)
Wir haben ein R-Paket namens PResiduals entwickelt , das bei CRAN erhältlich ist. Das Paket enthält Funktionen zur Durchführung unseres Ansatzes für lineare und ordinale Ergebnistypen. Wir arbeiten daran, andere Ergebnistypen (z. B. Anzahl) und Funktionen (z. B. Ermöglichen von Interaktionen) hinzuzufügen. Das Paket enthält auch Funktionen zur Berechnung unseres Residuums, das ein Residuum der Wahrscheinlichkeitsskala ist, für verschiedene Regressionsmodelle.
Verweise
Li, C. & Shepherd, BE (2010). Test der Assoziation zwischen zwei Ordinalvariablen unter Berücksichtigung von Kovariaten. JASA, 105, 612–620.
Li, C. & Shepherd, BE (2012). Ein neues Residuum für ordinale Ergebnisse. Biometrika 99, 473 & ndash; 480.
Im Allgemeinen gibt es viel Literatur über Ordinalvariablen als abhängig und wenig davon, sie als Prädiktoren zu verwenden. In der statistischen Praxis wird normalerweise davon ausgegangen, dass sie kontinuierlich oder kategorial sind. Sie können überprüfen, ob ein lineares Modell mit dem Prädiktor als stetige Variable gut passt, indem Sie die Residuen überprüfen.
Sie werden manchmal auch kumulativ codiert. Ein Beispiel wäre, dass eine Ordinalvariable x1 mit den Pegeln 1,2 und 3 eine Dummy-Binärvariable d1 für x1> 1 und eine Dummy-Binärvariable d2 für x1> 2 hat. Dann ist der Koeffizient für d1 der Effekt, den Sie erhalten, wenn Sie Ihre Ordnungszahl um 2 auf 3 erhöhen, und der Koeffizient für d2 ist der Effekt, den Sie erhalten, wenn Sie von 2 auf 3 ordnen.
Dies erleichtert die Interpretation häufig, entspricht jedoch der Verwendung als kategoriale Variable für praktische Zwecke.
Gelman schlägt sogar vor, den ordinalen Prädiktor sowohl als kategorialen Faktor (für die Haupteffekte) als auch als kontinuierliche Variable (für Interaktionen) zu verwenden, um die Flexibilität der Modelle zu erhöhen.
Meine persönliche Strategie besteht normalerweise darin, zu prüfen, ob es sinnvoll ist, sie als kontinuierlich zu behandeln und zu einem vernünftigen Modell zu führen, und sie nur dann als kategorisch zu verwenden, wenn dies erforderlich ist.