Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?
> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))
Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.1470 -1.6217 -0.8971 1.2445 6.0516
(Dispersion Parameter for gaussian family taken to be 6.6717)
Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294
Number of Local Scoring Iterations: 2
Anova for Parametric Effects
Df Sum Sq Mean Sq F value Pr(>F)
lo(wt) 1.0 847.73 847.73 127.06 1.239e-11 ***
Residuals 26.6 177.47 6.67
r
degrees-of-freedom
gam
machine-learning
pca
lasso
probability
self-study
bootstrap
expected-value
regression
machine-learning
linear-model
probability
simulation
random-generation
machine-learning
distributions
svm
libsvm
classification
pca
multivariate-analysis
feature-selection
archaeology
r
regression
dataset
simulation
r
regression
time-series
forecasting
predictive-models
r
mean
sem
lavaan
machine-learning
regularization
regression
conv-neural-network
convolution
classification
deep-learning
conv-neural-network
regression
categorical-data
econometrics
r
confirmatory-factor
scale-invariance
self-study
unbiased-estimator
mse
regression
residuals
sampling
random-variable
sample
probability
random-variable
convergence
r
survival
weibull
references
autocorrelation
hypothesis-testing
distributions
correlation
regression
statistical-significance
regression-coefficients
univariate
categorical-data
chi-squared
regression
machine-learning
multiple-regression
categorical-data
linear-model
pca
factor-analysis
factor-rotation
classification
scikit-learn
logistic
p-value
regression
panel-data
multilevel-analysis
variance
bootstrap
bias
probability
r
distributions
interquartile
time-series
hypothesis-testing
normal-distribution
normality-assumption
kurtosis
arima
panel-data
stata
clustered-standard-errors
machine-learning
optimization
lasso
multivariate-analysis
ancova
machine-learning
cross-validation
Haitao Du
quelle
quelle
Antworten:
Wir denken normalerweise an Freiheitsgrade als die Anzahl der freien Parameter, aber es gibt Situationen, in denen die Parameter nicht vollständig frei sind und es dann schwierig sein kann, sie zu zählen. Dies kann beispielsweise beim Glätten / Regularisieren der Fall sein.
Die Fälle lokal gewichteter Regressions- / Kernel-Methoden und glättender Splines sind Beispiele für eine solche Situation. Die Gesamtzahl der freien Parameter kann nicht einfach durch Addition von Prädiktoren berechnet werden. Daher ist eine allgemeinere Vorstellung von Freiheitsgraden erforderlich.
gam
Bei Modellen wie denen von
gam
sind diese verschiedenen Maße im Allgemeinen nicht ganzzahlig.(Ich empfehle dringend, die Diskussion dieser Referenzen zu diesem Thema zu lesen, obwohl die Geschichte in manchen Situationen etwas komplizierter werden kann. Siehe zum Beispiel [4].)
[1] Hastie, T. und Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.
[2] Hastie, T., Tibshirani, R. und Friedman, J. (2009),
Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"Zur Messung und Korrektur der Auswirkungen von Data Mining und Modellauswahl",
Journal of American Statistical Association , Vol. 93, Nr. 441, S. 120-131
[4] Janson, L., Fithian, W. und Hastie, T. (2013),
"Effektive Freiheitsgrade: Eine fehlerhafte Metapher"
https://arxiv.org/abs/1312.7851
quelle