Ich war in einer Debatte mit meinem Professor für Statistik über "Normalverteilungen". Ich behaupte, um wirklich eine Normalverteilung zu erhalten, muss man einen Mittelwert = Median = Modus haben, alle Daten müssen unter der Glockenkurve enthalten sein und perfekt symmetrisch um den Mittelwert. Technisch gesehen gibt es daher praktisch KEINE Normalverteilungen in realen Studien, und wir sollten sie etwas anderes nennen, vielleicht "fast normal".
Sie sagt, ich bin zu wählerisch, und wenn die Abweichung / Kurtosis weniger als 1,0 beträgt, handelt es sich um eine Normalverteilung, bei der Punkte für eine Prüfung abgezogen wurden. Bei dem Datensatz handelt es sich um die Gesamtzahl der Stürze / Jahr in einer Zufallsstichprobe von 52 Pflegeheimen, bei der es sich um eine Zufallsstichprobe einer größeren Bevölkerung handelt. Einsichten?
Problem:
FRAGE: 3. Berechnen Sie für diese Daten die Maße für Schiefe und Kurtosis. Fügen Sie ein Histogramm mit einer normalen Kurve hinzu. Besprechen Sie Ihre Ergebnisse. Sind die Daten normal verteilt?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
ein. Es gibt mehrere Modi. Der kleinste Wert wird angezeigt
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Meine Antwort:
Die Daten sind platykurtisch und weisen nur eine leichte positive Abweichung auf. Sie sind NICHT normal verteilt, da der Mittelwert und der Median und der Modus nicht gleich sind und die Daten nicht gleichmäßig um den Mittelwert verteilt sind. In Wirklichkeit sind praktisch keine Daten jemals eine perfekte Normalverteilung, obwohl wir über „ungefähre Normalverteilungen“ wie Größe, Gewicht, Temperatur oder Länge des erwachsenen Ringfingers in großen Bevölkerungsgruppen sprechen können.
Antwort des Professors:
Sie haben Recht, dass es keine vollkommen normale Verteilung gibt. Aber wir suchen keine Perfektion. Wir müssen Daten zusätzlich zum Histogramm und den Maßen der zentralen Tendenz betrachten. Was sagen die Statistiken über Schiefe und Kurtosis über die Verteilung aus? Da beide Werte zwischen den kritischen Werten -1 und +1 liegen, wird davon ausgegangen, dass diese Daten normal verteilt sind.
quelle
Antworten:
Ein Problem bei Ihrer Diskussion mit dem Professor ist die Terminologie. Es gibt ein Missverständnis, das der Vermittlung einer möglicherweise nützlichen Idee im Wege steht. An verschiedenen Stellen machen Sie beide Fehler.
Als Erstes gilt es zu klären, was für eine Distribution es ist ist.
Eine normale Verteilung ist ein spezielles mathematisches Objekt, das Sie als Modell für eine unendliche Population von Werten in Erwägung ziehen könnten. (Keine endliche Population kann tatsächlich eine kontinuierliche Verteilung haben.)
Was diese Verteilung (sobald Sie die Parameter angegeben haben) macht, ist (über einen algebraischen Ausdruck) der Anteil der Populationswerte, der innerhalb eines bestimmten Intervalls auf der realen Linie liegt. Etwas weniger locker definiert es die Wahrscheinlichkeit, dass ein einzelner Wert aus dieser Grundgesamtheit in einem bestimmten Intervall liegt.
Eine beobachtete Stichprobe hat nicht wirklich eine Normalverteilung. Eine Stichprobe könnte (möglicherweise) aus einer Normalverteilung gezogen werden, falls eine solche existieren würde. Wenn Sie sich das empirische cdf der Stichprobe ansehen, ist es diskret. Wenn Sie es (wie in einem Histogramm) binieren, hat das Sample eine "Häufigkeitsverteilung", aber das sind keine Normalverteilungen. Die Verteilung kann uns (im wahrscheinlichkeitstheoretischen Sinne) einige Informationen über eine Zufallsstichprobe aus der Bevölkerung liefern, und eine Stichprobe kann uns auch einige Informationen über die Bevölkerung liefern.
Eine vernünftige Interpretation eines Ausdrucks wie "normalverteilte Stichprobe" * ist "eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit".
* (Ich versuche im Allgemeinen, es aus Gründen, die hoffentlich klar genug sind, nicht selbst auszusprechen; normalerweise schaffe ich es, mich auf die zweite Art von Ausdruck zu beschränken.)
Nachdem wir Begriffe definiert haben (wenn auch noch ein wenig locker), wollen wir uns nun die Frage genauer ansehen. Ich werde auf bestimmte Teile der Frage eingehen.
Dies ist sicherlich eine Bedingung für die normale Wahrscheinlichkeitsverteilung, jedoch keine Voraussetzung für eine Stichprobe aus einer Normalverteilung. Stichproben können asymmetrisch sein, einen vom Median abweichenden Mittelwert haben usw. [Wir können uns jedoch ein Bild davon machen, wie weit sie auseinanderliegen, wenn die Stichprobe tatsächlich aus einer normalen Population stammt.]
Ich bin mir nicht sicher, was "enthalten unter" in diesem Sinne bedeutet.
Nein; Sie sprechen hier von den Daten , und eine Stichprobe aus einer (definitiv symmetrischen) normalen Grundgesamtheit wäre selbst nicht perfekt symmetrisch.
Ich stimme Ihrer Schlussfolgerung zu, aber die Begründung ist nicht korrekt. Dies ist keine Folge der Tatsache, dass Daten nicht perfekt symmetrisch sind (usw.). Es ist die Tatsache, dass die Bevölkerung selbst nicht ganz normal ist .
Wenn sie das so sagt, ist sie definitiv falsch.
Eine Probenversetzung kann viel näher bei 0 liegen (wobei "kleiner als" in absoluter Größe nicht der tatsächliche Wert bedeutet), und die überschüssige Kurtosis der Probe kann auch viel näher bei 0 liegen (sie kann sogar zufällig oder zufällig sein) Die Verteilung, aus der die Probe gezogen wurde, kann jedoch leicht deutlich von der Norm abweichen.
Wir können noch weiter gehen - selbst wenn wir auf magische Weise wüssten, dass die Schiefe und die Kurtosis der Bevölkerung genau die einer Normalbevölkerung sind, würde es uns nicht sagen, dass die Bevölkerung normal ist oder auch nur annähernd normal.
Die Bevölkerungsverteilung der Zählungen ist nie normal. Die Zählungen sind diskret und nicht negativ, die Normalverteilungen sind kontinuierlich und erstrecken sich über die gesamte reale Linie.
Aber wir konzentrieren uns hier wirklich auf das falsche Thema. Wahrscheinlichkeitsmodelle sind genau das, Modelle . Lassen Sie uns nicht unsere Modelle mit der Realität verwechseln .
Das Problem ist nicht "Sind die Daten selbst normal?" (können sie nicht sein), noch nicht einmal "ist die Population, aus der die Daten stammen, normal?" (Dies wird so gut wie nie der Fall sein).
Eine nützlichere Frage ist: "Wie stark würde sich meine Schlussfolgerung auswirken, wenn ich die Bevölkerung wie normal verteilt behandeln würde?"
Es ist auch viel schwieriger, eine gute Antwort zu finden, und es kann erheblich mehr Arbeit erfordern, als ein paar einfache Diagnosen zu betrachten.
Die von Ihnen angezeigten Stichprobenstatistiken widersprechen nicht besonders der Normalität (Sie könnten solche Statistiken sehen oder "schlimmer", wenn Sie zufällige Stichproben dieser Größe aus normalen Bevölkerungsgruppen hätten), aber das bedeutet an sich nicht, dass die tatsächliche Bevölkerung von dem die Probe gezogen wurde, ist für einen bestimmten Zweck automatisch "nah genug" an der Norm. Es wäre wichtig, den Zweck (welche Fragen Sie beantworten) und die Robustheit der dafür verwendeten Methoden zu berücksichtigen, und selbst dann können wir möglicherweise nicht sicher sein, ob es "gut genug" ist. manchmal ist es vielleicht besser, einfach nicht anzunehmen, was wir nicht von vornherein begründet haben (z. B. aufgrund von Erfahrungen mit ähnlichen Datensätzen).
Daten - auch Daten, die aus einer normalen Bevölkerung stammen - haben niemals genau die Eigenschaften der Bevölkerung. Allein aus diesen Zahlen kann man nicht schlussfolgern, dass die Bevölkerung hier nicht normal ist.
Auf der anderen Seite haben wir auch keine hinreichend solide Grundlage, um zu sagen, dass es dem Normalen "nahe genug" ist - wir haben nicht einmal überlegt, ob wir Normalität annehmen wollen, und wissen daher nicht, für welche Verteilungsmerkmale es empfindlich sein könnte.
Wenn ich zum Beispiel zwei Stichproben für eine Messung hätte, von der ich wusste, dass sie nicht sehr diskret sind (meistens nur wenige unterschiedliche Werte) und einigermaßen nahe an der Symmetrie liegen, wäre ich möglicherweise relativ glücklich, wenn ich zwei Stichproben verwenden würde T-Test bei einer nicht ganz so kleinen Stichprobengröße; Es ist mäßig robust bis zu leichten Abweichungen von den Annahmen (etwas pegelfest, nicht so leistungsfähig). Aber ich wäre viel vorsichtiger, wenn ich die Normalität kausal annehmen würde, wenn ich zum Beispiel die Gleichheit der Ausbreitung prüfe, weil der beste Test unter dieser Annahme ziemlich empfindlich für die Annahme ist.
Wenn das wirklich das Kriterium ist, nach dem man sich für ein normales Verteilungsmodell entscheidet, führt es Sie manchmal zu ziemlich schlechten Analysen.
Die Werte dieser Statistiken geben uns einige Hinweise auf die Population, aus der die Stichprobe gezogen wurde, aber das bedeutet keineswegs, dass ihre Werte in irgendeiner Weise ein „sicherer Leitfaden“ für die Auswahl einer Analyse sind.
Um das zugrunde liegende Problem mit einer noch besser formulierten Version einer solchen Frage zu lösen, wie die, die Sie hatten:
Der gesamte Prozess des Betrachtens einer Stichprobe zur Auswahl eines Modells ist mit Problemen behaftet. Dadurch werden die Eigenschaften aller nachfolgenden Analyseoptionen auf der Grundlage der von Ihnen ermittelten Ergebnisse geändert. Zum Beispiel für einen Hypothesentest sind Ihre Signifikanzniveaus, p-Werte und Potenzen nicht das, was Sie auswählen / berechnen würden , da diese Berechnungen voraussetzen, dass die Analyse nicht auf den Daten basiert.
Siehe zum Beispiel Gelman und Loken (2014), " The Statistical Crisis in Science ", American Scientist , Band 102, Nummer 6, Seite 460 (DOI: 10.1511 / 2014.111.460), in dem Probleme mit solchen datenabhängigen Analysen diskutiert werden.
quelle
Sie verpassen den Punkt und sind wahrscheinlich auch "schwierig", was in der Branche nicht geschätzt wird. Sie zeigt Ihnen ein Spielzeugbeispiel, um Sie in der Beurteilung der Normalität eines Datensatzes zu schulen, dh ob der Datensatz aus einer Normalverteilung stammt . Die Betrachtung von Verteilungsmomenten ist eine Möglichkeit, die Normalität zu überprüfen, z. B. basiert der Jarque-Bera-Test auf einer solchen Bewertung.
Ja, die Normalverteilung ist perfekt symmetrisch. Wenn Sie jedoch ein Sample aus einer echten Normalverteilung ziehen, ist dieses Sample höchstwahrscheinlich nicht perfekt symmetrisch. Dies ist der Punkt, den Sie völlig vermissen. Das können Sie ganz einfach selbst testen. Generieren Sie einfach eine Stichprobe aus der Gaußschen Verteilung und überprüfen Sie deren Moment. Sie werden niemals vollkommen "normal" sein, obwohl die wahre Verteilung so ist.
Hier ist ein albernes Python-Beispiel. Ich generiere 100 Stichproben von 100 Zufallszahlen und erhalte dann deren Mittelwerte und Mediane. Ich drucke das erste Beispiel aus, um zu zeigen, dass der Mittelwert und der Median unterschiedlich sind, und zeige dann das Histogramm der Differenz zwischen dem Mittelwert und dem Median. Sie können sehen, dass es ziemlich eng ist, aber der Unterschied ist im Grunde nie Null. Beachten Sie, dass die Zahlen tatsächlich aus einer Normalverteilung stammen .
Code:
Ausgänge:
PS
Nun hängt es vom Kontext ab, ob das Beispiel aus Ihrer Frage als normal angesehen werden soll oder nicht. Im Rahmen dessen , was in Ihrem Klassenzimmer gelehrt wurde Du irrst dich, weil Ihr Professor wollte sehen , ob Sie die Daumenregel Test wissen , dass sie gab dir, was ist , dass Skew und Überschuss Notwendigkeit Kurtosis in sein -1 bis 1 Angebot.
Ich persönlich habe diese spezielle Faustregel nie angewendet (ich kann sie nicht als Test bezeichnen) und wusste nicht einmal, dass es sie gibt. Anscheinend benutzen es einige Leute auf einigen Gebieten. Wenn Sie Ihre Datensatzbeschreibungen in JB-Test einfügen würden, hätte dies die Normalität abgelehnt . Daher können Sie natürlich nicht zu Unrecht behaupten, dass der Datensatz nicht normal ist, aber Sie liegen in dem Sinne falsch, dass Sie die von Ihnen erwartete Regel nicht angewendet haben, basierend auf dem, was in der Klasse gelehrt wurde.
Wenn ich Sie wäre, würde ich mich höflich an Ihren Professor wenden und mich erklären sowie die JB-Testausgabe zeigen. Ich würde zugeben, dass meine Antwort aufgrund ihres Tests natürlich falsch war. Wenn Sie versuchen, mit ihr so zu argumentieren, wie Sie es hier tun, ist Ihre Wahrscheinlichkeit sehr gering, dass Sie den Punkt im Test wiederfinden, da Ihre Argumentation in Bezug auf Mediane, Mittelwerte und Stichproben schwach ist. Wenn Sie Ihre Melodie ändern, haben Sie einen Fall.
quelle
Der Lehrer ist eindeutig nicht in seinem Element und sollte wahrscheinlich keine Statistik unterrichten. Es scheint mir schlimmer, etwas Falsches zu lehren, als es überhaupt nicht zu lehren.
Diese Probleme könnten alle leicht geklärt werden, wenn die Unterscheidung zwischen "Daten" und "Prozess, der die Daten erzeugt hat" klarer gemacht würde. Daten zielen auf den Prozess ab, der die Daten erzeugt hat. Die Normalverteilung ist ein Modell für diesen Prozess.
Es macht keinen Sinn darüber zu sprechen, ob die Daten normal verteilt sind. Aus einem Grund sind die Daten immer diskret. Aus einem anderen Grund beschreibt die Normalverteilung eine Unendlichkeit potenziell beobachtbarer Größen, nicht eine endliche Menge spezifischer beobachteter Größen.
Außerdem lautet die Antwort auf die Frage "Ist der Prozess , der die Daten erzeugt hat, ein normal verteilter Prozess " unabhängig von den Daten immer "Nein". Zwei einfache Gründe: (i) Alle Messungen, die wir durchführen, sind notwendigerweise diskret und werden auf ein gewisses Maß gerundet. (ii) Perfekte Symmetrie existiert wie ein perfekter Kreis nicht in beobachtbarer Natur. Es gibt immer Unvollkommenheiten.
Die Antwort auf die Frage "Was sagen diese Daten über die Normalität des Datenerzeugungsprozesses aus?" Könnte bestenfalls wie folgt lauten: "Diese Daten stimmen mit dem überein, was wir erwarten würden, wenn die Daten wirklich von a stammen normalverteilter Prozess. " Diese Antwort lässt nicht den Schluss zu, dass die Verteilung normal ist.
Diese Probleme lassen sich mithilfe der Simulation sehr leicht verstehen. Simulieren Sie einfach Daten aus einer Normalverteilung und vergleichen Sie diese mit den vorhandenen Daten. Wenn es sich bei den Daten um Zählungen handelt (0,1,2,3, ...), ist das normale Modell offensichtlich falsch, da es keine Zahlen wie 0,1,2,3, ... erzeugt. Stattdessen werden Zahlen mit Dezimalstellen erzeugt, die für immer weitergehen (oder zumindest so weit es der Computer zulässt). Eine solche Simulation sollte das erste sein, was Sie tun, wenn Sie sich mit der Normalitätsfrage befassen. Dann können Sie die Diagramme und Zusammenfassungsstatistiken genauer interpretieren.
quelle
Ich bin Ingenieur. In meiner Welt ist der angewandte Statistiker das, was ich am meisten sehe, und er liefert den konkretesten Wert. Wenn Sie im angewandten Bereich arbeiten möchten, müssen Sie in der Praxis eine solide Grundlage vor der Theorie haben: Unabhängig davon, ob es elegant ist oder nicht, das Flugzeug muss fliegen und nicht abstürzen.
Wenn ich über diese Frage nachdenke, denke ich, wie viele meiner technischen Experten auch, darüber nach, "wie es in der realen Welt mit dem Vorhandensein von Lärm aussieht".
Das zweite, was ich mache, ist oft eine Simulation, mit der ich die Frage in den Griff bekommen kann.
Hier ist eine sehr kurze Erkundung:
Es gibt dies als Ausgabe:
Hinweis: Seien Sie vorsichtig mit der x-Achse, da diese logarithmisch und nicht gleichmäßig skaliert ist.
Ich weiß, dass der Mittelwert und der Median genau gleich sind. Der Code sagt es. Die empirische Erkenntnis ist stark abhängig von der Stichprobengröße, und wenn es nicht wirklich unendlich viele Stichproben gibt, können sie nie perfekt mit der Theorie übereinstimmen.
Sie können darüber nachdenken, ob die Unsicherheit im Median den geschätzten Mittelwert einhüllt oder umgekehrt. Wenn die beste Schätzung des Mittelwerts innerhalb des 95% -KI der Schätzung für den Median liegt, können die Daten den Unterschied nicht erkennen. Die Daten besagen, dass sie in der Theorie identisch sind. Wenn Sie mehr Daten erhalten, lesen Sie, was darin steht.
quelle
In der medizinischen Statistik kommentieren wir immer nur die Formen und Erscheinungen von Verteilungen. Die Tatsache, dass keine diskrete endliche Stichprobe jemals normal sein kann, ist irrelevant und umständlich. Ich würde dich dafür falsch markieren.
Wenn eine Distribution "meistens" normal aussieht, können wir sie gerne als normal bezeichnen. Wenn ich Verteilungen für ein nicht-statistisches Publikum beschreibe, kann ich sehr gut etwas ungefähr Normales nennen, auch wenn ich weiß, dass die Normalverteilung nicht das zugrunde liegende Wahrscheinlichkeitsmodell ist. Ich habe das Gefühl, dass ich hier auf der Seite Ihres Lehrers stehe ... aber wir Sie müssen weder ein Histogramm noch einen Datensatz überprüfen.
Als Tipp würde ich die folgenden Inspektionen sehr genau durchgehen:
quelle
Ich denke, Sie und Ihr Professor sprechen in einem anderen Kontext. Die Gleichheit von Mittelwert = Median = Modus ist ein Merkmal der theoretischen Verteilung und dies ist nicht das einzige Merkmal. Sie können nicht sagen, dass die Verteilung normal ist, wenn für eine Verteilung über property hold. Die T-Verteilung ist ebenfalls symmetrisch, aber nicht normal. Sie sprechen also von theoretischen Eigenschaften der Normalverteilung, die für die Normalverteilung immer zutreffen.
Ihr Professor spricht über die Verteilung von Beispieldaten. Er hat recht, Sie werden niemals Daten im wirklichen Leben erhalten, wo Sie Mean = Median = Mode finden. Dies ist einfach auf einen Stichprobenfehler zurückzuführen . In ähnlicher Weise ist es sehr unwahrscheinlich, dass Sie für Probendaten einen Neigungskoeffizienten von Null und eine überschüssige Kurtosis von Null erhalten. Ihr Professor gibt Ihnen nur eine einfache Regel, um sich anhand der Stichprobenstatistik ein Bild von der Verteilung zu machen. Was im Allgemeinen nicht stimmt (ohne weitere Informationen zu erhalten).
quelle
Aus praktischen Gründen werden zugrunde liegende Prozesse wie dieser normalerweise durch Normalverteilung fein angenähert, ohne dass jemand eine Augenbraue hochzieht.
Wenn Sie jedoch pedantisch sein möchten, kann der zugrunde liegende Prozess in diesem Fall nicht normal verteilt werden, da er keine negativen Werte erzeugen kann (die Anzahl der Stürze kann nicht negativ sein). Es würde mich nicht wundern, wenn es sich tatsächlich um eine bimodale Verteilung mit einem zweiten Peak nahe Null handeln würde.
quelle