Ich habe eine komische Frage. Angenommen, Sie haben eine kleine Stichprobe, bei der die abhängige Variable, die Sie mit einem einfachen linearen Modell analysieren möchten, stark verzerrt ist. Sie nehmen also an, dass nicht normalverteilt ist, da dies zu normalverteiltem . Wenn Sie jedoch den QQ-Normal-Plot berechnen, gibt es Hinweise darauf, dass die Residuen normalverteilt sind. Somit kann jeder annehmen, dass der Fehlerterm normalverteilt ist, obwohl dies bei nicht der ist. Was bedeutet es also, wenn der Fehlerbegriff normalverteilt zu sein scheint, jedoch nicht?
quelle
@DikranMarsupial ist natürlich genau richtig, aber mir ist der Gedanke gekommen, dass es schön sein könnte, seinen Standpunkt zu veranschaulichen , zumal diese Besorgnis offenbar häufig auftaucht. Insbesondere sollten die Residuen eines Regressionsmodells normalverteilt sein, damit die p-Werte korrekt sind. Doch selbst wenn die Residuen normal verteilt sind, das garantiert nicht , dass wird (nicht , dass es darauf ankommt , ...); es hängt von der Verteilung von X ab .Y. X
Nehmen wir ein einfaches Beispiel (das ich erfasse). Angenommen, wir testen ein Medikament auf isolierte systolische Hypertonie (dh der obere Blutdruck ist zu hoch). Nehmen wir weiter an, dass der systolische Bp in unserer Patientenpopulation normal verteilt ist, mit einem Mittelwert von 160 & SD von 3, und dass für jede mg des Arzneimittels, die Patienten täglich einnehmen, der systolische Bp um 1 mmHg sinkt. Mit anderen Worten, der wahre Wert von ist 160 und & bgr; 1 -1 ist , und die wahre Datenerzeugungsfunktion ist: B P s y s = 160 - 1 × tägliche Medikamentendosis + εβ0 β1
In unserer fiktiven Studie werden 300 Patienten nach dem Zufallsprinzip 0 mg (ein Placebo), 20 mg oder 40 mg dieses neuen Arzneimittels pro Tag zugeteilt. (Beachten Sie, dass X nicht normal verteilt ist.) Nach einer angemessenen Zeitspanne, in der das Medikament wirksam wird, sehen unsere Daten möglicherweise folgendermaßen aus:
(Ich habe die Dosierungen gezittert, damit sich die Punkte nicht so sehr überlappen, dass sie schwer zu unterscheiden sind.) Schauen wir uns nun die Verteilungen von (dh die marginale / ursprüngliche Verteilung) und die Residuen an:Y.
Diese Ergebnisse zeigen, dass alles gut funktioniert.
quelle
quelle