Ich verwende das Quantreg- Paket, um ein Regressionsmodell mit dem 99. Perzentil meiner Werte in einem Datensatz zu erstellen. Basierend auf den Ratschlägen einer früheren Stackoverflow- Frage, die ich gestellt habe, habe ich die folgende Codestruktur verwendet.
mod <- rq(y ~ log(x), data=df, tau=.99)
pDF <- data.frame(x = seq(1,10000, length=1000) )
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )
was ich oben auf meinen Daten gezeichnet zeige. Ich habe dies mit ggplot2 mit einem Alpha-Wert für die Punkte gezeichnet. Ich denke, dass der Schwanz meiner Verteilung in meiner Analyse nicht ausreichend berücksichtigt wird. Möglicherweise liegt dies daran, dass es einzelne Punkte gibt, die bei der Perzentiltypmessung ignoriert werden.
Einer der Kommentare deutete darauf hin
Die Paketvignette enthält Abschnitte zur nichtlinearen Quantilregression sowie Modelle mit Glättungssplines usw.
Aufgrund meiner vorherigen Frage habe ich eine logarithmische Beziehung angenommen, bin mir aber nicht sicher, ob das richtig ist. Ich dachte, ich könnte alle Punkte im 99. Perzentilintervall extrahieren und sie dann separat untersuchen, aber ich bin mir nicht sicher, wie ich das machen soll oder ob das ein guter Ansatz ist. Ich würde mich über Ratschläge freuen, wie diese Beziehung besser identifiziert werden kann.
quelle
Antworten:
Alle Modelle sind falsch, aber einige sind nützlich (George Box). Sie erzwingen eine logrithmische Form für Ihre angepasste Kurve, und ehrlich gesagt sieht es nicht so schlecht aus. Die Passform am Schwanz ist schlecht, weil dort weniger Punkte sind; Die beiden Parameter, die Sie zugelassen haben, passen zum Großteil der Daten. Mit anderen Worten, auf einer Protokollskala ist dieser Schwanz nicht weit genug von der Masse Ihrer Daten entfernt, um eine Hebelwirkung zu erzielen. Es hat nichts mit der Quantilnatur der Regression zu tun; OLS würde diese Punkte auch ignorieren (insbesondere auf der Protokollskala).
Es ist ziemlich einfach, etwas mehr Nichtlinearität zuzulassen. Ich mag natürliche Splines, aber auch hier sind alle Modelle falsch:
Das
quantreg
Paket enthält einige spezielle Haken für monotone Splines, wenn Sie diesbezüglich Bedenken haben.quelle