Können Freiheitsgrade eine nicht ganzzahlige Zahl sein?

27

Wenn ich GAM verwende, erhalte ich einen DF-Rest von (letzte Zeile im Code). Was bedeutet das? Über das GAM-Beispiel hinausgehend: Kann die Anzahl der Freiheitsgrade im Allgemeinen eine nicht ganzzahlige Zahl sein?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
Haitao Du
quelle
3
Im Allgemeinen kann df eine Gleitkommazahl sein.
David Lane
6
Sie wollen wahrscheinlich nach einer reellen Zahl fragen (oder nach einer Zahl, die keine ganze Zahl ist). Eine Gleitkommazahl ist ein Computerkonzept (eine Methode zur Approximation reeller Zahlen), das sich auf die Implementierung bezieht, aber Sie fragen wirklich nach der zugrunde liegenden mathematischen Idee (und besser nach einer mathematischen Frage). Man stößt oft auf Situationen, in denen (aus dem einen oder anderen Grund, nicht immer gut) eine Menge, die konzeptionell eine ganze Zahl ist, dennoch in der Implementierung als Gleitkommazahl gespeichert wird. Ich schlage vor "Kann ein Modell nicht ganzzahlige Freiheitsgrade haben?" für den Titel.
Glen_b

Antworten:

40

kk+1

Wir denken normalerweise an Freiheitsgrade als die Anzahl der freien Parameter, aber es gibt Situationen, in denen die Parameter nicht vollständig frei sind und es dann schwierig sein kann, sie zu zählen. Dies kann beispielsweise beim Glätten / Regularisieren der Fall sein.

Die Fälle lokal gewichteter Regressions- / Kernel-Methoden und glättender Splines sind Beispiele für eine solche Situation. Die Gesamtzahl der freien Parameter kann nicht einfach durch Addition von Prädiktoren berechnet werden. Daher ist eine allgemeinere Vorstellung von Freiheitsgraden erforderlich.

gamy^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

tr(A)

iy^iyitr(A)y^y^iyi

Bei Modellen wie denen von gamsind diese verschiedenen Maße im Allgemeinen nicht ganzzahlig.

(Ich empfehle dringend, die Diskussion dieser Referenzen zu diesem Thema zu lesen, obwohl die Geschichte in manchen Situationen etwas komplizierter werden kann. Siehe zum Beispiel [4].)

[1] Hastie, T. und Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.

[2] Hastie, T., Tibshirani, R. und Friedman, J. (2009),
Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
"Zur Messung und Korrektur der Auswirkungen von Data Mining und Modellauswahl",
Journal of American Statistical Association , Vol. 93, Nr. 441, S. 120-131

[4] Janson, L., Fithian, W. und Hastie, T. (2013),
"Effektive Freiheitsgrade: Eine fehlerhafte Metapher"
https://arxiv.org/abs/1312.7851

Glen_b - Setzen Sie Monica wieder ein
quelle
7
Dies ist für diesen Fall nicht relevant, aber der Welch-Zwei-Stichproben-Test, wenn die Varianzen ungleich sind, kann eine nicht ganzzahlige Anzahl von Freiheitsgraden aufweisen.
Michael R. Chernick
5
Da kann die epsilon-korrigierte df bei wiederholten Messungen die ANOVA.
David Lane
2
Eine weitere Referenz ist statweb.stanford.edu/~tibs/ElemStatLearn/printings/… Abschnitt 5.4.1 Freiheitsgrade und glattere Matrizen
Adrian
1
@ Adrian danke; Ich hatte darüber nachgedacht, ob ich nur diesen Verweis hinzufügen sollte (und insbesondere, ob ich in dem Abschnitt, auf den Sie verweisen, Gleichung 5.16 erwähnen sollte). Ich bin zu dem Schluss gekommen, dass es eine gute Idee ist, es hinzuzufügen.
Glen_b