Mit welchen Methoden kann ich auf eine Verteilung schließen, wenn ich nur drei Perzentile kenne?
Ich weiß zum Beispiel, dass in einem bestimmten Datensatz das fünfte Perzentil 8.135, das 50. Perzentil 11.259 und das 95. Perzentil 23.611 ist. Ich möchte in der Lage sein, von jeder anderen Zahl zu ihrem Perzentil zu gelangen.
Es sind nicht meine Daten, und das sind alle Statistiken, die ich habe. Es ist klar, dass die Verteilung nicht normal ist. Die einzige andere Information, die ich habe, ist, dass diese Daten die Pro-Kopf-Finanzierung der Regierung für verschiedene Schulbezirke darstellen.
Ich weiß genug über Statistiken, um zu wissen, dass dieses Problem keine eindeutige Lösung hat, aber nicht genug, um zu wissen, wie man gute Vermutungen anstellt.
Wäre eine logarithmische Verteilung angemessen? Mit welchen Tools kann ich die Regression durchführen (oder muss ich sie selbst durchführen)?
quelle
Antworten:
Die Verwendung einer rein statistischen Methode für diese Arbeit liefert absolut keine zusätzlichen Informationen über die Verteilung der Schulausgaben: Das Ergebnis wird lediglich eine willkürliche Wahl des Algorithmus widerspiegeln.
Sie benötigen mehr Daten .
Dies ist leicht zu bekommen: Verwenden Sie Daten aus früheren Jahren, aus vergleichbaren Bezirken, was auch immer. Beispielsweise sind die Bundesausgaben für 14866 Schulbezirke im Jahr 2008 auf der Website der Volkszählung verfügbar . Es zeigt, dass im ganzen Land die gesamten Pro-Kopf-Bundeseinnahmen (eingeschrieben) in etwa normal verteilt waren, die Aufschlüsselung nach Bundesstaaten zeigt jedoch erhebliche Unterschiede ( z. B. sind die Rundholzausgaben in Alaska negativ, während die Rundholzausgaben in Colorado stark positiv sind). . Verwenden Sie diese Daten, um die wahrscheinliche Form der Verteilung zu charakterisieren und passen Sie dann Ihre Quantile an diese Form an.
Wenn Sie sich sogar der richtigen Verteilungsform nähern, sollten Sie in der Lage sein, die Quantile genau zu reproduzieren, indem Sie einen oder höchstens zwei Parameter anpassen. Die beste Methode zur Ermittlung der Übereinstimmung hängt von der von Ihnen verwendeten Verteilungsform ab, aber - was noch wichtiger ist - davon, wofür Sie die Ergebnisse verwenden möchten. Müssen Sie einen durchschnittlichen Ausgabenbetrag schätzen? Ober- und Untergrenze der Ausgaben? Was auch immer es ist, Sie möchten ein Maß für die Anpassungsgüte festlegen, mit dem Sie die besten Chancen haben, mit Ihren Ergebnissen gute Entscheidungen zu treffen. Wenn sich Ihr Interesse beispielsweise auf die oberen 10% aller Ausgaben konzentriert, möchten Sie das 95. Perzentil genau anpassen, und es interessiert Sie möglicherweise wenig, ob Sie das 5. Perzentil anpassen. Keine ausgefeilte Anpassungstechnik wird diese Überlegungen für Sie treffen.
Natürlich kann niemand rechtmäßig garantieren, dass diese dateninformierte, entscheidungsorientierte Methode eine bessere (oder schlechtere) Leistung erbringt als ein statistisches Rezept, aber im Gegensatz zu einem rein statistischen Ansatz hat diese Methode eine in der Realität begründete Grundlage. mit einem Fokus auf Ihre Bedürfnisse, geben Sie ihm etwas Glaubwürdigkeit und Verteidigung gegen Kritik.
quelle
Wie @whuber betonte, funktionieren statistische Methoden hier nicht genau. Sie müssen die Verteilung aus anderen Quellen ableiten. Wenn Sie die Verteilung kennen, haben Sie eine nichtlineare Gleichungslösungsübung. Mitf die Quantilfunktion Ihrer gewählten Wahrscheinlichkeitsverteilung mit dem Parametervektor . Was Sie haben, ist das folgende nichtlineare Gleichungssystem:θ
wo sind deine Quantile. Sie müssen dieses System lösen, um zu findenq θ
Hier habe ich die quadratische Funktion gewählt, aber Sie können wählen, was Sie wollen. Laut @whuber-Kommentaren können Sie Gewichte zuweisen, damit wichtigere Quantile genauer angepasst werden können.
Für vier und mehr Parameter ist das System unterbestimmt, so dass unendlich viele Lösungen existieren.
Hier ist ein Beispiel für einen R-Code, der diesen Ansatz veranschaulicht. Zu Demonstrationszwecken generiere ich die Quantile aus der Singh-Maddala-Verteilung von VGAM Paket. Diese Verteilung hat 3 Parameter und wird in der Einkommensverteilungsmodellierung verwendet.
Bilden Sie nun die Funktion, die das nichtlineare Gleichungssystem auswertet:
Überprüfen Sie, ob die wahren Werte der Gleichung entsprechen:
Zur Lösung des nichtlinearen Gleichungssystems verwende ich die Funktion
nleqslv
aus dem Paket nlqeslv .Wie wir sehen, erhalten wir die genaue Lösung. Versuchen wir nun, diese Quantile auf die logarithmische Normalverteilung abzustimmen. Dafür verwenden wir die
optim
Funktion.Zeichnen Sie nun das Ergebnis
Daran sehen wir sofort, dass die quadratische Funktion nicht so gut ist.
Hoffe das hilft.
quelle
ofn <- function(x,q) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
. Ich schlage vor,ofn <- function(x) sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2],x[3]))^2)
weilq
keine Eingabe fürofn
undX[3]
fehlt. GrüßeProbieren Sie das Paket rriskDistributions aus und verwenden Sie den Befehl , wenn Sie sich über die lognormal-Verteilungsfamilie sicher sind
das sollte dein problem lösen. Verwenden Sie
fit.perc
stattdessen, wenn Sie sich nicht auf ein bekanntes PDF beschränken möchten.quelle
Für eine logarithmische Norm ist das Verhältnis des 95. Perzentils zum Median das gleiche wie das Verhältnis des Medians zum 5. Perzentil. Das ist hier nicht einmal annähernd der Fall, daher wäre lognormal keine gute Lösung.
Sie haben genügend Informationen, um eine Verteilung mit drei Parametern anzupassen, und Sie benötigen eindeutig eine Versatzverteilung. Zur Vereinfachung der Analyse würde ich die verschobene log-logistische Verteilung als Quantilfunktion vorschlagen (dh die Umkehrung ihrer kumulativen Verteilungsfunktion) in einer relativ einfachen geschlossenen Form zu schreiben, sodass Sie in der Lage sein sollten, geschlossene Ausdrücke für zu erhalten Die drei Parameter in Bezug auf Ihre drei Quantile mit ein wenig Algebra (ich lasse das als Übung!). Diese Verteilung wird in der Hochwasserhäufigkeitsanalyse verwendet.
Dies gibt jedoch keinen Hinweis auf die Unsicherheit in den Schätzungen der anderen Quantile. Ich weiß nicht, ob Sie das brauchen, aber als Statistiker bin ich der Meinung, dass ich es bereitstellen sollte, daher bin ich mit dieser Antwort nicht wirklich zufrieden. Ich würde diese Methode oder wahrscheinlich auch keine andere verwenden, um (viel) außerhalb des Bereichs des 5. bis 95. Perzentils zu extrapolieren.
quelle
Aus den Daten können Sie nur schließen, dass die Verteilung unsymmetrisch ist. Sie können nicht einmal sagen, ob diese Quantile aus einer angepassten Distribution oder nur aus dem ecdf stammen.
Wenn sie von einer angepassten Verteilung stammen, können Sie alle erdenklichen Verteilungen ausprobieren und feststellen, ob sie übereinstimmen. Wenn nicht, gibt es bei weitem nicht genug Informationen. Sie könnten ein Polynom 2. Grades oder ein Spline 3. Grades für die Quantilfunktion interpolieren und diese verwenden oder eine Theorie zur Verteilungsfamilie und zur Übereinstimmung von Quantilen aufstellen, aber alle Schlussfolgerungen, die Sie mit diesen Methoden ziehen würden, wären zutiefst verdächtig.
quelle
Die Verwendung von Quantilen zur Schätzung von Parametern von A-priori-Verteilungen wird in der Literatur zur Messung der menschlichen Reaktionszeit als "Quantil-Maximum-Wahrscheinlichkeits-Schätzung" (QMPE, obwohl ursprünglich fälschlicherweise "Quantil-Maximum-Wahrscheinlichkeits-Schätzung", QMLE) diskutiert, die ausführlich von Heathcote diskutiert wurde und Kollegen . Sie könnten eine Reihe verschiedener a priori-Verteilungen (ex-Gauß-Verteilungen, verschobene Lognormal-, Wald- und Weibull-Verteilungen) anpassen und dann die Summenlog-Wahrscheinlichkeiten der resultierenden besten Anpassungen für jede Verteilung vergleichen, um das Verteilungsaroma zu finden, das die beste Anpassung zu ergeben scheint.
quelle
Sie können Ihre Perzentilinformationen verwenden, um die Daten auf irgendeine Weise zu simulieren, und das R-Paket "logspline" verwenden, um die Verteilung nichtparametrisch zu schätzen. Unten ist meine Funktion, die eine Methode wie diese einsetzt.
quelle