Ich möchte wissen, in welchem Bereich der Werte für Schiefe und Kurtosis die Daten als normal verteilt gelten.
Ich habe viele Argumente gelesen und meistens habe ich gemischte Antworten bekommen. Einige sagen, dass für die Schiefe und ( - 2 , 2 ) für die Kurtosis ein akzeptabler Bereich für die Normalverteilung ist. Einige sagen ( - 1,96 , 1,96 ) für Schiefe ist ein akzeptabler Bereich. Ich habe hier eine ausführliche Diskussion gefunden: Was ist der akzeptable Bereich von Schiefe und Kurtosis für die normale Verteilung von Daten zu diesem Thema ? Aber ich konnte keine entscheidende Aussage finden.
Was ist die Grundlage für die Entscheidung eines solchen Intervalls? Ist das eine subjektive Wahl? Oder gibt es eine mathematische Erklärung für diese Intervalle?
quelle
Antworten:
Der ursprüngliche Beitrag enthält einige wichtige Punkte: (1) Es können niemals "Daten" normal verteilt werden. Daten sind notwendigerweise diskret. Die gültige Frage lautet: "Ist der Prozess, der die Daten erzeugt hat, ein normalverteilter Prozess?" Aber (2) die Antwort auf die zweite Frage lautet immer "Nein", unabhängig davon, was Ihnen ein statistischer Test oder eine andere auf Daten basierende Bewertung gibt. Normalverteilte Prozesse erzeugen Daten mit unendlicher Kontinuität, perfekter Symmetrie und genau festgelegten Wahrscheinlichkeiten innerhalb von Standardabweichungsbereichen (z. B. 68-95-99.7), von denen keine jemals genau für Prozesse gilt, die zu Daten führen, die wir mit was auch immer messen können Messgerät, das wir Menschen benutzen können.
Sie können also niemals Daten als normalverteilt betrachten, und Sie können niemals den Prozess, der die Daten erzeugt hat, als einen genau normalverteilten Prozess betrachten. Wie Glen_b angedeutet hat, spielt es jedoch möglicherweise keine große Rolle, je nachdem, was Sie mit den Daten versuchen.
Mithilfe von Skewness- und Kurtosis-Statistiken können Sie bestimmte Arten von Abweichungen von der Normalität Ihres Datengenerierungsprozesses beurteilen. Es handelt sich jedoch um sehr variable Statistiken. Die oben angegebenen Standardfehler sind nicht nützlich, da sie nur unter Normalität gültig sind, was bedeutet, dass sie nur als Test für Normalität nützlich sind, eine im Wesentlichen nutzlose Übung. Es wäre besser, den Bootstrap zu verwenden, um Se's zu finden, obwohl große Samples benötigt würden, um genaue Se's zu erhalten.
Außerdem ist Kurtosis im Gegensatz zum obigen Beitrag sehr leicht zu interpretieren. Dies ist der Durchschnitt (oder der erwartete Wert) der Z-Werte, jeweils mit der vierten Potenz. Groß | Z | Werte sind Ausreißer und tragen stark zur Kurtosis bei. Klein | Z | Werte, bei denen der "Peak" der Verteilung ist, ergeben Z ^ 4 -Werte, die winzig sind und im Wesentlichen nichts zur Kurtosis beitragen. Ich habe in meinem Artikel https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ bewiesen, dass die Kurtosis durch den Durchschnitt der Z ^ 4 * I (| Z |> 1) -Werte sehr gut angenähert wird. Daher misst Kurtosis die Neigung des Datenerzeugungsprozesses, Ausreißer zu erzeugen.
quelle
Was Sie hier zu verlangen scheinen, ist ein Standardfehler für die Schiefe und Kurtosis einer Stichprobe aus einer normalen Population. Beachten Sie, dass es verschiedene Möglichkeiten gibt, Dinge wie Schiefe oder Fettschwanz (Kurtosis) abzuschätzen , die sich offensichtlich auf den Standardfehler auswirken. Die häufigsten Maßnahmen, an die Menschen denken, sind eher als 3. und 4. standardisierte Momente bekannt.
Für das, was es wert ist, sind die Standardfehler:
Eine gute Einführung in Schiefe und Kurtosis finden Sie hier .
quelle
[Im Folgenden gehe ich davon aus, dass Sie etwas vorschlagen wie "Überprüfen Sie die Probenschiefe und die Kurtosis, wenn beide innerhalb eines vorgegebenen Bereichs liegen, verwenden Sie ein normales theoretisches Verfahren, andernfalls verwenden Sie etwas anderes".]
Dies hat eine Reihe von Aspekten, von denen wir nur Platz für eine Handvoll Überlegungen haben. Ich werde zunächst auflisten, was meiner Meinung nach die wichtigsten Themen sein sollten, bevor ich ein solches Kriterium verwende. Ich werde versuchen, später zurückzukommen und ein wenig über jeden Artikel zu schreiben:
Zu berücksichtigende Probleme
Wie schlimm wären verschiedene Arten von Nicht-Normalität für das, was wir tun?
Wie schwierig ist es, diese Abweichungen anhand von Bereichen für Probenschiefe und Kurtosis zu erfassen?
Eine Sache, der ich im Vorschlag zustimme - es geht um ein Paar von Maßnahmen, die sich eher auf die Effektgröße ( wie viel Abweichung von der Normalität) als auf die Bedeutung beziehen . In diesem Sinne wird es näher kommen, etwas Nützliches anzusprechen, als ein formaler Hypothesentest, der dazu neigt, selbst geringfügige Abweichungen bei großen Stichprobengrößen abzulehnen, und gleichzeitig den falschen Trost bietet, nicht größere (und wirkungsvollere) Abweichungen bei nicht abzulehnen kleine Stichprobengrößen. (Hypothesentests sprechen hier die falsche Frage an.)
Natürlich ist es bei kleinen Stichprobengrößen immer noch problematisch in dem Sinne, dass die Maßnahmen sehr "verrauscht" sind, so dass wir immer noch in die Irre geführt werden können (ein Konfidenzintervall hilft uns zu erkennen, wie schlimm es tatsächlich sein könnte).
Es sagt uns nicht, wie eine Abweichung in der Schiefe oder Kurtosis mit Problemen mit dem zusammenhängt, wofür wir Normalität wollen - und verschiedene Verfahren können in ihren Reaktionen auf Nicht-Normalität sehr unterschiedlich sein.
Es hilft uns nicht, wenn unsere Abweichung von der Normalität von einer Art ist, für die Schiefe und Kurtosis blind sind.
Wenn Sie diese Beispielstatistik als Grundlage für die Entscheidung zwischen zwei Verfahren verwenden, wie wirkt sich dies auf die Eigenschaften der resultierenden Inferenz aus (z. B. für einen Hypothesentest, wie sehen Ihr Signifikanzniveau und Ihre Leistung dabei aus?).
Es gibt unendlich viele Verteilungen, die genau die gleiche Schiefe und Kurtosis wie die Normalverteilung aufweisen, aber eindeutig nicht normal sind. Sie müssen nicht einmal symmetrisch sein! Wie wirkt sich die Existenz solcher Dinge auf die Anwendung solcher Verfahren aus? Ist das Unternehmen von Anfang an zum Scheitern verurteilt?
Wie stark variieren die Probenschiefe und die Kurtosis in Proben, die aus Normalverteilungen stammen? (Welchen Anteil an normalen Proben würden wir nach einer Regel wegwerfen?)
[Zum Teil hängt dieses Problem mit einigen Themen zusammen, die Gung in seiner Antwort bespricht.]
Könnte es stattdessen etwas Besseres geben?
Wenn wir schließlich nach Prüfung all dieser Fragen beschließen, diesen Ansatz anzuwenden, kommen wir zu Überlegungen, die sich aus Ihrer Frage ergeben:
Was sind gute Grenzen für Schiefe und Kurtosis bei verschiedenen Verfahren? Über welche Variablen müssen wir uns in welchen Verfahren Gedanken machen?
(Wenn wir z. B. eine Regression durchführen, beachten Sie, dass es falsch ist, auf diese Weise mit IV und sogar mit dem rohen DV umzugehen. Es wird davon ausgegangen, dass keines davon aus einer gemeinsamen Normalverteilung stammt.)
Ich werde zurückkommen und einige Gedanken hinzufügen, aber alle Kommentare / Fragen, die Sie in der Zwischenzeit haben, könnten nützlich sein.
quelle