Wie kann ich feststellen, ob kategoriale Daten normal verteilt sind?

9
  1. Stimmt es, dass eine Normalitätsprüfung nur für kontinuierliche Daten (Verhältnis, Intervallniveau der Messung) und nicht für kategoriale Daten (nominal, ordinal) verwendet werden sollte?

  2. Gibt es eine Möglichkeit, die Normalität kategorialer Daten zu überprüfen?

NoraNorad
quelle

Antworten:

17

Kategoriale Daten stammen nicht aus einer Normalverteilung.

Die Normalverteilung ist nur dann sinnvoll, wenn Sie mindestens Intervalldaten verarbeiten und die Normalverteilung kontinuierlich und auf der gesamten realen Linie ist. Wenn eine dieser Aussagen nicht zutrifft, müssen Sie die Datenverteilung nicht untersuchen, um zu dem Schluss zu gelangen, dass sie nicht mit der Normalität übereinstimmt.

[Beachten Sie, dass Sie, wenn es sich nicht um ein Intervall handelt, größere Probleme haben als bei der Annahme einer Verteilungsform, da selbst die Berechnung eines Mittelwerts impliziert, dass Sie eine Intervallskala haben. Zu sagen, dass "Hoch" + "Sehr Niedrig" = "Mittel" + "Niedrig" und "Sehr Hoch" + "Mittel" = "Hoch" + "Hoch" (dh genau das, was Sie halten müssen, um überhaupt zu beginnen Wenn Sie an erster Stelle Werte hinzufügen, müssen Sie an diesem Punkt eine Intervallskala annehmen.]

Es wäre etwas selten, normal aussehende Stichproben mit tatsächlichen Verhältnisdaten auch nur annähernd zu haben, da Verhältnisdaten im Allgemeinen nicht negativ und typischerweise etwas schief sind.

Wenn Ihre Kennzahlen kategorisch sind, können Sie sie nicht "überprüfen", da dies im Allgemeinen keinen Sinn ergibt. Sie wissen bereits, dass es sich nicht um eine Stichprobe aus einer Normalverteilung handelt. In der Tat macht die Idee, es überhaupt zu versuchen, bei nominalen Daten keinen Sinn, da die Kategorien nicht einmal eine Reihenfolge haben! [Die einzige Verteilung, die für eine willkürliche Neuordnung der Ordnung unveränderlich ist, wäre eine diskrete Uniform.]

Wenn Ihre Daten kategorisch geordnet sind, sind die Intervalle willkürlich, und wir haben wieder eine Vorstellung, mit der wir nicht wirklich viel anfangen können. Selbst einfachere Begriffe wie Symmetrie halten bei willkürlichen Änderungen der Intervalle nicht wirklich stand.

Um überhaupt über eine ungefähre Normalität nachzudenken, müssen wir zumindest davon ausgehen, dass unsere Kategorien Intervalle sind / feste, bekannte "Scores" haben.

Aber auf jeden Fall die Frage "ist es normal?" ist sowieso keine wirklich nützliche Frage - seit wann werden echte Daten wirklich aus einer Normalverteilung entnommen ?

[Es kann Situationen geben, in denen es sinnvoll sein könnte, zu prüfen, ob den geordneten Kategorien eine zugrunde liegende (latente) Variable mit (sagen wir) einer Normalverteilung zugrunde liegt, aber das ist eine ganz andere Art von Überlegung.]

Eine nützlichere Frage wird von George Box vorgeschlagen:

Denken Sie daran, dass alle Modelle falsch sind. Die praktische Frage ist, wie falsch sie sein müssen, um nicht nützlich zu sein.

(Ich glaube, das ist in Box und Draper, zusammen mit seinem bekannteren Aphorismus.)

Wenn Sie diskrete Daten hatten, die mindestens Intervalle hatten und eine angemessene Anzahl von Kategorien hatten, ist es möglicherweise sinnvoll zu überprüfen, ob sie nicht stark verzerrt sind, aber Sie würden nicht glauben, dass sie aus einer normalen Population stammen - Es kann nicht sein.

Bei einigen Inferenzverfahren ist die tatsächliche Normalität möglicherweise nicht besonders wichtig, insbesondere bei größeren Stichproben.

Glen_b -Reinstate Monica
quelle
Aber wie kann ich die Normalität für nominelle kategoriale Daten überprüfen, die für den Z-Test für Proportionen erforderlich sind? Hier heißt es, dass es Standard-Normalverteilung sein sollte: newonlinecourses.science.psu.edu/stat414/node/268
vasili111
Verwechseln Sie die Kategorien nicht mit der Anzahl der Werte in diesen Kategorien. Eine Reihe von kategorialen Antworten wie "Rot, Blau, Rosa, Blau ..." kann nicht normal sein. Die Anzahl innerhalb der Kategorien ist jedoch eine andere Geschichte. Ein spezifischer Satz von Zählungen in Kategorien kann (unter Berücksichtigung einiger einfacher Annahmen) als multinomiale Verteilung modelliert werden, die, wenn die erwarteten Zählungen nicht zu niedrig sind, als (entartete) multivariate Normalen gut angenähert werden kann. Bei einem Z-Test für Proportionen - 2 Ergebnisse - ist die Anzahl in beiden Ergebnissen (unter den gegebenen Annahmen) binomisch (und daher ungefähr normal mit großem n).
Glen_b -Reinstate Monica