Dies grenzt an eine philosophische Frage, aber ich bin daran interessiert, wie andere mit mehr Erfahrung über die Auswahl von Distributionen denken. In einigen Fällen scheint es klar zu sein, dass die Theorie am besten funktioniert (die Schwanzlängen von Mäusen sind wahrscheinlich normal verteilt). In vielen Fällen gibt es wahrscheinlich keine Theorie, um einen Datensatz zu beschreiben. Verwenden Sie also einfach etwas, das Ihren Vorstellungen entspricht, unabhängig davon, wofür es ursprünglich entwickelt wurde? Ich kann mir einige der Fallstricke vorstellen, die auftreten können, wenn Sie mit der einen oder der anderen Option arbeiten, und dann scheint es natürlich das Problem zu geben, dass Sie möglicherweise nur eine empirische Verteilung verwenden sollten, wenn Sie wirklich keine Ahnung haben.
Also denke ich, was ich wirklich frage: Hat jemand eine kohärente Art, sich diesem Problem zu nähern / darüber nachzudenken? Und gibt es Ressourcen, die Sie vorschlagen können, um dies zu behandeln?
quelle
Antworten:
Kommt auf jeden Fall darauf an, um welche Daten es sich handelt und wie viel man darüber weiß oder annehmen möchte. Wie @whuber kürzlich im Chat sagte : "Wenn es um physikalische Gesetze geht, können Sie fast immer vernünftige Vermutungen anstellen, wie die Daten angemessen modelliert werden können." (Ich vermute, das ist wahrer von ihm als von mir! Ich hoffe auch, dass dies nicht aus dem ursprünglichen Kontext heraus falsch angewendet wird ...) In Fällen, die eher einer latenten Konstruktmodellierung in den Sozialwissenschaften ähneln, ist es oft nützlich, sich auf diese zu konzentrieren empirische Verteilungen zum Verständnis der Nuancen weniger bekannter Phänomene. Es ist etwas zu einfach, eine Normalverteilung anzunehmen und eine Fehlanpassung in der Gesamtform als vernachlässigbar abzutun, und es ist ziemlich unangebracht, Ausreißer als fehlerhaft abzutun, ohne dass dies gerechtfertigt ist. '
Natürlich ist ein Großteil dieses Verhaltens auf die Annahmen der Analysen zurückzuführen, die angewendet werden sollen. Oft gehen die interessantesten Fragen weit über die Beschreibung oder Klassifizierung von Variablenverteilungen hinaus. Dies beeinflusst auch die richtige Antwort für ein bestimmtes Szenario. kann es Gründe geben (zB Strombedarf) eine Normalverteilung anzunehmen , wenn es nicht besonders gut paßt (noch Außenseiter zu schlecht), da nichtparametrischer und sonst robuste Methoden entweder perfektionieren nicht. Das Risiko, dies zu tun, besteht jedoch darin, die interessanten Fragen zu vergessen, die man über die Verteilung einer einzelnen Variablen stellen kann.
Betrachten Sie zum Beispiel die Beziehung zwischen Wohlstand und Glück: Eine beliebte Frage, die die Menschen im Allgemeinen stellen möchten. Es mag sicher sein anzunehmen, dass Wohlstand einer Gamma- Verteilung (Salem & Mount, 1974) oder einer allgemeinen Beta- Verteilung (Parker, 1999) folgt, aber ist es wirklich sicher anzunehmen, dass das Glück normal verteilt ist? Eigentlich sollte es nicht notwendig sein, dies anzunehmen, nur um die ursprüngliche Frage zu beantworten, aber manchmal tun es die Leute und ignorieren dann potenziell wichtige Themen wie Antwortverzerrungen und kulturelle Unterschiede. Beispielsweise neigen einige Kulturen dazu, mehr oder weniger extreme Antworten zu geben (siehe @ chls Antwort zur Faktoranalyse von Fragebögen, die aus Likert-Elementen bestehen ), und Normen variieren in Bezug auf den offenen Ausdruck positiver und negativer Emotionen (Tucker, Ozer, Lyubomirsky & Boehm, 2006 ) . Dies kann die Wichtigkeit von Unterschieden in empirischen Verteilungseigenschaften wie Schiefe und Kurtosis erhöhen. Wenn ich das Verhältnis von Wohlstand zu subjektiven Bewertungen des Glücks in Russland, China und den USA vergleiche, möchte ich wahrscheinlich Unterschiede in den zentralen Tendenzen der Glücksbewertungen bewerten. In diesem Fall würde ich zögern, für eine Einweg-ANOVA normale Verteilungen für jede davon anzunehmen (auch wenn sie für Verstöße möglicherweise ziemlich robust ist), wenn es Grund zur Annahme gibt, dass in China eine "dickschwänzige" Verteilung, in Russland eine positiv verzerrte Verteilung und in den USA eine negativ verzerrte Verteilung aufgrund verschiedener kulturabhängiger Normen und Reaktionsverzerrungen besteht. Für einen Signifikanztest (obwohl ich wahrscheinlich ehrlich gesagt lieber nur die Effektgrößen angeben würde) würde ich lieber eine nichtparametrische Methode anwenden und um das subjektive Glück in jeder Population einzeln zu verstehen Beschreiben Sie die Verteilung eher empirisch, als sie als einfache theoretische Verteilung zu kategorisieren, und ignorieren oder beschönigen Sie jede Fehlanpassung. Das ist eine Verschwendung von Informationen, IMO.
Referenzen
- Parker, SC (1999). Das verallgemeinerte Beta als Modell für die Einkommensverteilung. Economics Letters, 62 (2), 197–200.
- Salem, ABZ & Mount, TD (1974). Ein bequemes beschreibendes Modell der Einkommensverteilung: Die Gammadichte. Econometrica, 42 (6), 1115–1127.
- Tucker, KL, Ozer, DJ, Lyubomirsky, S. & Boehm, JK (2006). Testen auf Messinvarianz in der Zufriedenheit mit der Lebensskala: Ein Vergleich von Russen und Nordamerikanern. Social Indicators Research, 78 (2), 341–360. Abgerufen von http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .
quelle
Das würde ich bezweifeln. Normalverteilungen entstehen durch viele unabhängige additive Effekte. Biologische Systeme bestehen aus vielen wechselwirkenden Rückkopplungsschleifen (interabhängige multiplikative Effekte). Es gibt auch oft Staaten, die stabiler sind als andere (dh Attraktoren). Eine Art langschwänzige oder multimodale Verteilung würde also wahrscheinlich die Schwanzlängen beschreiben. Tatsächlich ist die Normalverteilung wahrscheinlich eine sehr schlechte Standardauswahl, um irgendetwas Biologisches zu beschreiben, und ihr Missbrauch ist für die vielen "Ausreißer" verantwortlich, über die in dieser Literatur berichtet wird. Die Verbreitung dieser Verbreitung in der Natur ist ein Mythos und nicht nur im Sinne von "Perfekte Kreise gibt es nicht wirklich". Daraus folgt jedoch nicht, dass der Mittelwert und der SD als zusammenfassende Statistik unbrauchbar sind.
Die Anpassung empirischer Verteilungen liefert Hinweise auf den zugrunde liegenden Prozess, was die Entwicklung theoretischer Verteilungen erleichtert. Dann wird die theoretische Verteilung mit den empirischen Verteilungen verglichen, um die Beweise für die Theorie zu testen.
Wenn Ihr Ziel darin besteht, die Wahrscheinlichkeit bestimmter Ergebnisse auf der Grundlage der verfügbaren Daten zu beurteilen, und Sie keinen Grund haben, diese bestimmte Verteilung zu wählen, sehe ich nicht, wie hilfreich es sein könnte, zusätzliche Annahmen zu treffen. Stattdessen scheint es die Sache zu verwirren.
Wenn Sie jedoch versuchen, die Daten zu beschreiben oder zusammenzufassen, ist es möglicherweise sinnvoll, die Verteilung anzupassen.
quelle
Schwanzlängen sind sicherlich nicht normal verteilt.
Normalverteilungen haben eine Wahrscheinlichkeit ungleich Null, negative Werte anzunehmen. Schwanzlängen nicht.
Die berühmte Linie von George Box , " alle Modelle sind falsch, aber einige sind nützlich ", macht den Punkt ziemlich gut. Fälle, in denen wir die Normalität vernünftigerweise behaupten könnten (und nicht nur die ungefähre Normalität), sind in der Tat sehr selten, beinahe legendäre Wesen, Miragen, die gelegentlich fast aus dem Augenwinkel erblickten.
In Fällen, in denen die Mengen, an denen Sie interessiert sind, nicht besonders von der Auswahl abhängen (sofern die allgemeinen Merkmale der Distribution mit den bekannten übereinstimmen), können Sie einfach etwas verwenden, das recht gut passt.
In Fällen, in denen ein höheres Maß an Sensibilität vorhanden ist, reicht es nicht aus, nur etwas zu verwenden, das passt. Möglicherweise verwenden wir einen Ansatz, der keine besonderen Annahmen trifft (z. B. verteilungsfreie Prozeduren wie Permutation, Bootstrapping oder andere Resampling-Ansätze oder robuste Prozeduren). Alternativ können wir die Empfindlichkeit für die Verteilungsannahme quantifizieren, z. B. durch Simulation (in der Tat halte ich dies im Allgemeinen für eine gute Idee).
Ich würde das nicht als problembasierenden Rückschluss auf empirische Verteilungen bezeichnen, sondern als legitimen Ansatz, der für viele Arten von Problemen geeignet ist (Permutation / Randomisierung und Bootstrapping sind zwei Beispiele).
Im Großen und Ganzen neige ich in vielen Fällen dazu, Fragen zu prüfen wie:
1) Was verstehe ich * darüber, wie sich Mittelwerte (oder andere standortbezogene Mengen) für Daten dieses Formulars verhalten?
* (ob aus der Theorie oder aus der Erfahrung mit dieser Art von Daten oder aus Expertenratschlägen oder erforderlichenfalls aus den Daten selbst, obwohl dies Probleme mit sich bringt, mit denen man sich befassen muss)
2) Was ist mit der Streuung (Varianz, IQR usw.) - wie verhält es sich?
3) Was ist mit anderen Verteilungsmerkmalen (Grenzen, Schiefe, Diskretion usw.)?
4) Was ist mit Abhängigkeit, Heterogenität der Populationen, Tendenz zu gelegentlich sehr unterschiedlichen Werten usw
Diese Art von Überlegung könnte die Wahl zwischen einem normalen Modell, einem GLM, einem anderen Modell oder einem robusten oder verteilungsfreien Ansatz (wie Bootstrapping oder Permutations- / Randomisierungsansätzen, einschließlich rangbasierter Verfahren) leiten.
quelle