Kann jemand bitte eine einfache (Laien-) Erklärung der Beziehung zwischen Pareto-Verteilungen und dem zentralen Grenzwertsatz geben (z. B. gilt sie? Warum / warum nicht?)? Ich versuche die folgende Aussage zu verstehen:
Kann jemand bitte eine einfache (Laien-) Erklärung der Beziehung zwischen Pareto-Verteilungen und dem zentralen Grenzwertsatz geben (z. B. gilt sie? Warum / warum nicht?)? Ich versuche die folgende Aussage zu verstehen:
Die Aussage ist im Allgemeinen nicht wahr - die Pareto-Verteilung hat einen endlichen Mittelwert, wenn ihr Formparameter ( am Link) größer als 1 ist.
Wenn sowohl der Mittelwert als auch die Varianz existieren ( ), gelten die üblichen Formen des zentralen Grenzwertsatzes - z. B. Klassik, Lyapunov, Lindeberg
Siehe die Beschreibung des klassischen zentralen Grenzwertsatzes hier
Das Zitat ist etwas seltsam, weil der zentrale Grenzwertsatz (in einer der genannten Formen) nicht für den Stichprobenmittelwert selbst gilt, sondern für einen standardisierten Mittelwert (und wenn wir versuchen, ihn auf etwas anzuwenden, dessen Mittelwert und Varianz sind nicht endlich, wir müssten sehr sorgfältig erklären, wovon wir tatsächlich sprechen, da Zähler und Nenner Dinge beinhalten, die keine endlichen Grenzen haben.
Trotzdem (obwohl es nicht ganz richtig ausgedrückt wird, um über zentrale Grenzwertsätze zu sprechen) hat es einen zugrunde liegenden Punkt - der Stichprobenmittelwert konvergiert nicht zum Populationsmittelwert (das schwache Gesetz der großen Zahlen gilt nicht, da das den Mittelwert definierende Integral nicht endlich ist).
Wie kjetil in den Kommentaren zu Recht hervorhebt, brauchen wir eine Art Bindung an "wie weit weg" / "wie schnell", um zu vermeiden, dass die Konvergenzrate schrecklich ist (dh um sie in der Praxis anwenden zu können) Die Annäherung setzt ein. Es nützt nichts, eine angemessene Näherung für (sagen wir) zu haben, wenn wir eine praktische Verwendung von einer normalen Näherung wollen.
Der zentrale Grenzwertsatz bezieht sich auf das Ziel, sagt jedoch nichts darüber aus, wie schnell wir dort ankommen. Es gibt jedoch Ergebnisse wie das Berry-Esseen-Theorem , die die Rate (in einem bestimmten Sinne) begrenzen. Im Fall von Berry-Esseen begrenzt es den größten Abstand zwischen der Verteilungsfunktion des standardisierten Mittelwerts und dem normalen Standard-cdf in Bezug auf das dritte absolute Moment ( ).
Im Fall des Pareto können wir also , wenn , zumindest eine Grenze dafür ziehen, wie schlecht die Annäherung bei einigen könnte und wie schnell wir dort ankommen. (Andererseits ist die Begrenzung des Unterschieds in cdfs nicht unbedingt eine besonders "praktische" Sache - was Sie interessiert, hängt möglicherweise nicht besonders gut mit einer Begrenzung des Unterschieds in der Schwanzfläche zusammen). Trotzdem ist es etwas (und zumindest in einigen Situationen ist eine PDF-Bindung direkter nützlich).
Ich werde eine Antwort hinzufügen, die zeigt, wie schlecht die Annäherung aus dem zentralen Grenzwertsatz (CLT) für die Pareto-Verteilung sein kann, selbst in einem Fall, in dem die Annahmen für CLT erfüllt sind. Die Annahme ist, dass es eine endliche Varianz geben muss, was für das Pareto bedeutet, dass . Eine theoretischere Diskussion darüber, warum dies so ist, finden Sie in meiner Antwort hier: Was ist der Unterschied zwischen endlicher und unendlicher Varianz?α > 2
Ich werde Daten aus der Pareto-Verteilung mit dem Parameter simulieren , so dass die Varianz "gerade noch existiert". Wiederholen Sie meine Simulationen mit , um den Unterschied zu sehen! Hier ist ein R-Code:α = 2,1 α = 3,1
Und hier ist die Handlung:
Man kann sehen, dass wir selbst bei der Stichprobengröße weit von der normalen Näherung entfernt sind. Dass die empirischen Varianzen so viel niedriger sind als die wahre theoretische Varianz liegt daran, dass wir einen sehr großen Beitrag zur Varianz von Teilen der Verteilung im äußersten rechten Schwanz leisten, die nicht in auftauchen die meisten Proben. Dies ist immer dann zu erwarten, wenn die Varianz "gerade noch vorhanden" ist.n = 10000 σ2= 1 . Eine praktische Möglichkeit, darüber nachzudenken, ist die folgende. Pareto-Verteilungen werden häufig vorgeschlagen, um Einkommensverteilungen (oder Vermögensverteilungen) zu modellieren. Die Erwartung von Einkommen (oder Vermögen) wird von den wenigen Milliardären einen sehr großen Beitrag leisten. Bei Stichproben mit praktischen Stichprobengrößen ist die Wahrscheinlichkeit, dass Milliardäre in die Stichprobe aufgenommen werden, sehr gering!
quelle
Ich mag bereits gegebene Antworten, denke aber, dass es ein bisschen viel Technik für eine "Laienerklärung" gibt, also werde ich etwas Intuitiveres ausprobieren (beginnend mit einer Gleichung ...).
Dies ist eine typische Realisierung. Der Stichprobenmittelwert konvergiert ziemlich genau gegen den Dichtemittelwert (und im Durchschnitt auf die Weise, die durch den zentralen Grenzwertsatz gegeben ist). Machen wir dasselbe für eine Pareto-Verteilung ohne Mittelwert (Substitution von rnorm (N, 1,1); durch Pareto (N, 1.1,1);)
quelle