Ich habe gelernt, dass ich nicht die Rohdaten, sondern deren Residuen auf Normalität prüfen muss. Sollte ich Residuen berechnen und dann den Shapiro-Wilk-W-Test durchführen?
Werden Residuen wie folgt berechnet: ?
Bitte sehen Sie diese vorherige Frage für meine Daten und das Design.
Antworten:
Warum müssen Sie auf Normalität prüfen?
Die Standardannahme bei der linearen Regression ist, dass die theoretischen Residuen unabhängig und normalverteilt sind. Die beobachteten Residuen sind eine Schätzung der theoretischen Residuen, sind jedoch nicht unabhängig (es gibt Transformationen der Residuen, die einen Teil der Abhängigkeit beseitigen, aber dennoch nur eine Annäherung an die wahren Residuen geben). Ein Test der beobachteten Residuen garantiert also nicht, dass die theoretischen Residuen übereinstimmen.
Wenn die theoretischen Residuen nicht genau normalverteilt sind, aber die Stichprobengröße groß genug ist, ist nach dem zentralen Grenzwertsatz die übliche Folgerung (Tests und Konfidenzintervalle, jedoch nicht unbedingt Vorhersageintervalle), die auf der Annahme der Normalität beruht, immer noch ungefähr korrekt .
Beachten Sie auch, dass die Normalitätstests Ausschlusstests sind. Sie können Ihnen mitteilen, dass die Daten wahrscheinlich nicht aus einer Normalverteilung stammen. Wenn der Test jedoch nicht aussagekräftig ist, was nicht bedeutet, dass die Daten aus einer normalen Verteilung stammen, kann dies auch bedeuten, dass Sie nicht über genügend Strom verfügen, um den Unterschied zu erkennen. Größere Stichprobengrößen bieten mehr Leistung für die Erkennung der Nichtnormalität, größere Stichproben und die CLT bedeuten jedoch, dass die Nichtnormalität am unwichtigsten ist. Für kleine Stichprobengrößen ist die Annahme der Normalität wichtig, aber die Tests sind bedeutungslos. Für große Stichprobengrößen sind die Tests möglicherweise genauer, aber die Frage der exakten Normalität wird bedeutungslos.
Wenn man also all das oben Genannte kombiniert, ist es wichtiger als ein Test der exakten Normalität, die Wissenschaft zu verstehen, die hinter den Daten steckt, um festzustellen, ob die Bevölkerung nahe genug an der Normalität liegt. Diagramme wie qqplots können eine gute Diagnose sein, aber es ist auch ein Verständnis der Wissenschaft erforderlich. Besteht die Befürchtung, dass zu viele Abweichungen vorliegen oder möglicherweise Ausreißer auftreten, stehen nicht parametrische Methoden zur Verfügung, für die keine Normalitätsannahme erforderlich ist.
quelle
Die Gaußschen Absaugungen beziehen sich auf die Residuen aus dem Modell. Es sind keine Annahmen über die ursprünglichen Daten erforderlich. Ein Beispiel dafür ist die Verteilung des täglichen Bierverkaufs. Nach einem vernünftigen Modell wurden der Wochentag, die Urlaubs- / Ereigniseffekte und die Pegelverschiebungen / Zeittrends erfasst, die wir erhalten
quelle
Zuerst kann man „Augapfel es“ einen mit QQ-Plot ein allgemeines Gefühl zu bekommen hier ist , wie man in R. zu erzeugen
Laut R-Handbuch können Sie Ihren Datenvektor direkt in die shapiro.test () -Funktion einspeisen.
Wenn Sie die Residuen selbst berechnen möchten, ja, jedes Residuum wird so über Ihre Beobachtungen berechnet. Hier können Sie mehr darüber sehen .
quelle