Der Sharipo-Wilk-Test testet laut Wikipedia die Nullhypothese ( ) "Die Population ist normal verteilt".
Ich suche einen ähnlichen Normalitätstest mit "Die Bevölkerung ist nicht normal verteilt".
Mit einem solchen Test möchte ich einen Wert berechnen , um H 0 auf dem Signifikanzniveau α abzulehnen, wenn p < α ist ; Beweis, dass meine Bevölkerung normal verteilt ist.
Bitte beachten Sie, dass die Verwendung des Sharipo-Wilk-Tests und das Akzeptieren von wenn p > α ist, ein falscher Ansatz ist da dies wörtlich bedeutet: "Wir haben nicht genügend Beweise, um zu beweisen, dass H0 nicht gilt".
Verwandte Threads - Bedeutung von Wert , ist Normalitätstest nutzlos? , aber ich kann keine Lösung für mein Problem sehen.
Die Fragen: Welchen Test soll ich verwenden? Ist es in R implementiert?
Antworten:
Es gibt nicht so etwas wie ein Test , dass Ihre Daten sind normalverteilt sind . Es gibt nur Tests, bei denen Ihre Daten nicht normal verteilt sind. So gibt es Tests wie den Shapiro-Wilk, bei denen (es gibt viele andere), aber keine Tests, bei denen die Null lautet, dass die Bevölkerung nicht normal ist, und die alternative Hypothese lautet, dass die Bevölkerung normal ist.H0:normal
Alles, was Sie tun können, ist herauszufinden, welche Art von Abweichung von der Normalität Sie interessiert (z. B. Schiefe) und wie groß diese Abweichung sein müsste, bevor sie Sie stört. Dann können Sie testen, ob die Abweichung von der perfekten Normalität in Ihren Daten geringer als die kritische Menge war. Für weitere Informationen zur allgemeinen Idee könnte es hilfreich sein, meine Antwort hier zu lesen: Warum sagen Statistiker, dass ein nicht signifikantes Ergebnis bedeutet, dass Sie die Null nicht ablehnen können, anstatt die Nullhypothese zu akzeptieren?
quelle
Die Normalverteilung entsteht, wenn die Daten durch eine Reihe von additiven iid-Ereignissen generiert werden (siehe das Quincunx-Bild unten). Das bedeutet keine Rückmeldungen und keine Korrelationen. Klingt das nach dem Prozess, der Ihre Daten führt? Wenn nicht, ist es wahrscheinlich nicht normal.
Es besteht die Möglichkeit, dass in Ihrem Fall ein Prozess auftritt. Am ehesten können Sie "beweisen", dass Sie genügend Daten sammeln, um andere Verteilungen auszuschließen, die von Personen erstellt werden können (was wahrscheinlich nicht praktikabel ist). Eine andere Möglichkeit besteht darin, die Normalverteilung aus einer Theorie zusammen mit einigen anderen Vorhersagen abzuleiten. Wenn die Daten mit allen übereinstimmen und niemand eine andere Erklärung finden kann, wäre dies ein guter Beweis für die Normalverteilung.
https://en.wikipedia.org/wiki/Bean_machine
Wenn Sie nun keine bestimmte Verteilung von vornherein erwarten, kann es dennoch sinnvoll sein, die Normalverteilung zu verwenden, um die Daten zusammenzufassen. Beachten Sie jedoch, dass dies im Wesentlichen eine Entscheidung aus Unwissenheit ist ( https://en.wikipedia.org/wiki/). Prinzip der maximalen Entropie ). In diesem Fall möchten Sie nicht wissen, ob die Bevölkerung normal verteilt ist, sondern ob die Normalverteilung eine vernünftige Annäherung für Ihren nächsten Schritt darstellt.
In diesem Fall sollten Sie Ihre Daten (oder generierte Daten, die ähnlich sind) zusammen mit einer Beschreibung dessen, was Sie damit vorhaben, bereitstellen und dann fragen: "Inwiefern kann mich die Annahme der Normalität in diesem Fall irreführen?"
quelle
Sie werden niemals in der Lage sein, eine Normalitätsannahme in Ihren Daten zu "beweisen". Bieten Sie nur Beweise dafür als Annahme an. Der Shapiro-Wilk-Test ist eine Möglichkeit, dies zu tun, und wird ständig verwendet, um die Normalitätsannahme zu rechtfertigen. Der Grund dafür ist, dass Sie zunächst Normalität annehmen. Sie fragen dann, deuten meine Daten darauf hin, dass ich eine dumme Annahme mache? Also testen Sie es mit Shapiro-Wilk. Wenn Sie die Nullhypothese nicht ablehnen, deuten die Daten nicht darauf hin, dass Sie eine dumme Annahme machen.
Beachten Sie, dass Menschen diese ähnliche Logik in der Praxis ständig anwenden - nicht nur im Rahmen des Shapiro-Wilk-Tests. Sie wollen lineare Regression verwenden, schauen Sie sich aY., X. Streudiagramm und sehen, ob lineare Regression eine dumme Idee ist. Oder sie nehmen Heteroskedastizität an und zeichnen Fehlerbegriffe auf, um zu sehen, ob dies eine dumme Idee ist.
quelle