Der klassische F-Test für Teilmengen von Variablen in der multilinearen Regression hat die Form wobei die Summe der quadratischen Fehler unter dem 'reduzierten' Modell ist, das im 'großen' Modell ist , und die Freiheitsgrade der zwei Modelle. Unter der Nullhypothese, dass die zusätzlichen Variablen im 'großen' Modell keine lineare Erklärungskraft haben, wird die Statistik als F mit den Freiheitsgraden und .
Wie ist die Verteilung jedoch unter der Alternative? Ich nehme an, es ist ein nicht zentrales F (ich hoffe nicht doppelt nicht zentral), aber ich kann keinen Hinweis darauf finden, was genau der nicht zentrale Parameter ist. Ich werde vermuten, dass es von den wahren Regressionskoeffizienten und wahrscheinlich von der Entwurfsmatrix abhängt , aber darüber hinaus bin ich mir nicht so sicher.
Ich bestätigte die Antwort von @ caracal mit einem Monte-Carlo-Experiment. Ich habe zufällige Instanzen aus einem linearen Modell (mit der Größe zufällig) generiert, die F-Statistik berechnet und den p-Wert unter Verwendung des Nicht-Zentralitätsparameters δ 2 = | berechnet | X β 1 - X β 2 | | 2 Dann habe ich das empirische cdf dieser p-Werte aufgetragen. Wenn der Nicht-Zentralitätsparameter (und der Code!) Korrekt sind, sollte ich ein nahezu einheitliches PDF erhalten, was der Fall ist:
Hier ist der R-Code (verzeihen Sie den Stil, den ich noch lerne):
quelle