Wie schätze ich das dritte Quartil der gruppierten Daten?

12

Gibt es einen technischen Trick, um das dritte Quartil zu bestimmen, wenn es zu einem offenen Intervall gehört, das mehr als ein Viertel der Bevölkerung enthält (also kann ich das Intervall nicht schließen und die Standardformel verwenden)?

Bearbeiten

Falls ich etwas missverstanden habe, werde ich mehr oder weniger vollständigen Kontext bereitstellen. Ich habe Daten in einer Tabelle mit zwei Spalten und 6 Zeilen angeordnet. Zu jeder Spalte gehört ein Intervall (in der ersten Spalte) und eine Bevölkerungsmenge, die zu diesem Intervall "gehört". Das letzte Intervall ist offen und umfasst mehr als 25% der Bevölkerung. Alle Intervalle (mit Ausnahme des letzten) haben den gleichen Bereich.

Beispieldaten (zur Präsentation übertragen):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182

Die erste Spalte ist als Einkommensbereich zu interpretieren. Die zweite ist als Anzahl der Mitarbeiter zu interpretieren, deren Einkommen zum Intervall gehört.

Die Standardformel, über die ich nachdenke, ist . $\mathbb{Q}_{3}=x_{Q_{3}}+ \frac{\frac{3N}{4}- \sum_{i=1}^{k-1}n_{i}}{n_{Q_{3}}}r_{Q_{3}}$

distributions histogram descriptive-statistics ein bisschen
quelle

Eine verbreitete Annahme beim Versuch, Quantile mit gruppierten Daten zu schätzen, ist die Annahme einer Einheitlichkeit innerhalb von Gruppen. Wenn Sie jedoch etwas über die Art und Weise wissen, in der die Daten wahrscheinlich verteilt werden (wie bei Einkommen, bei denen es sich um richtige Abweichungen handelt), werden Annahmen, die das Wissen widerspiegeln, tendenziell besser sein. Eine andere Alternative wäre anzunehmen, dass es glatt ist, und dann die Daten (ob durch KDE oder eine angepasste Verteilung) zu glätten, Punkte innerhalb von Behältern entsprechend dem Modell neu zu verteilen [und möglicherweise die Passung neu zu schätzen (in etwas EM-ähnlicher Weise), & wieder in Bins umverteilen] und daraus Quantile abschätzen.

Glen_b -Reinstate Monica

16

Sie müssen diese zusammengefassten Daten mit einem Verteilungsmodell kombinieren, da dies die einzige Möglichkeit ist, ins obere Quartil zu extrapolieren.

Ein Model

Per Definition ist ein solches Modell durch eine Cadlag- Funktion die von auf steigt . Die Wahrscheinlichkeit, die einem Intervall ist . Um die Anpassung vorzunehmen, müssen Sie eine Familie möglicher Funktionen setzen, die durch einen (Vektor) -Parameter , indiziert sind. Angenommen, die Stichprobe fasst eine Ansammlung von Personen zusammen, die nach dem Zufallsprinzip und unabhängig von einer Population ausgewählt wurden, die durch ein bestimmtes (aber unbekanntes) $F$ $0$ $1$ $(a,b]$ $F(b)-F(a)$ $\theta$ $\{F_\theta\}$ $F_\theta$ die Wahrscheinlichkeit der Probe (oder Wahrscheinlichkeit , ) ist das Produkt der Einzelwahrscheinlichkeiten. Im Beispiel wäre es gleich $L$

L (θ) = (F_{θ} (8) - F_{θ} (6))^{51} (F_{θ} (10) - F_{θ} (8))^{65} \dots (F_{θ} (\infty) - F_{θ} (16))^{182}

$L(\theta) = (F_\theta(8) - F_\theta(6))^{51} (F_\theta(10) - F_\theta(8))^{65} \cdots (F_\theta(\infty) - F_\theta(16))^{182}$

da der Personen zugeordnete Wahrscheinlichkeiten , haben Wahrscheinlichkeiten $51$ $F_\theta(8) - F_\theta(6)$ $65$ , und so weiter. $F_\theta(10) - F_\theta(8)$

Anpassen des Modells an die Daten

Die Maximum-Likelihood-Schätzung von ist ein Wert, der maximiert (oder äquivalent den Logarithmus von $\theta$ $L$ ). $L$

Einkommensverteilungen werden häufig durch logarithmische Normalverteilungen modelliert (siehe z. B. http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Wenn man schreibt, ist die Familie der logarithmischen Normalverteilungen $\theta = (\mu,\sigma)$

F_{(μ, σ)} (x) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{(Log (x) - μ) / σ} \exp (- t^{2} / 2) d t .

$F_{(\mu, \sigma)}(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{(\log(x)-\mu)/\sigma} \exp(-t^2/2) dt.$

Für diese Familie (und viele andere) ist es einfach, numerisch zu optimieren . Zum Beispiel würden wir in eine Funktion schreiben, um zu berechnen und dann zu optimieren, da das Maximum von mit dem Maximum von selbst und (normalerweise) übereinstimmt. $L$ R $\log(L(\theta))$ $\log(L)$ $L$ $\log(L)$ einfacher zu berechnen ist und numerisch stabiler zu arbeiten mit:

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

Die Lösung in diesem Beispiel ist , in dem Wert gefunden . $\theta = (\mu,\sigma)=(2.620945, 0.379682)$ fit$par

Modellannahmen überprüfen

Wir müssen zumindest überprüfen, wie gut dies mit der angenommenen Lognormalität übereinstimmt, also schreiben wir eine Funktion, um zu berechnen : $F$

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

Es wird auf die Daten angewendet, um die angepassten oder "vorhergesagten" Behälterpopulationen zu erhalten:

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

Wir können Histogramme der Daten und der Vorhersage zeichnen, um sie visuell zu vergleichen. Dies wird in der ersten Reihe dieser Diagramme gezeigt:

Histogramme

Zum Vergleich können wir eine Chi-Quadrat-Statistik berechnen. Dies wird üblicherweise als Chi-Quadrat-Verteilung bezeichnet, um die Signifikanz zu bestimmen :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

$0.0087$ $6-8$ $6$ $3$ $0.40$ , was (hypothetisch, da wir uns derzeit nur im Erkundungsmodus befinden) darauf hinweist, dass diese Statistik keinen signifikanten Unterschied zwischen den Daten und der Anpassung feststellt.

Verwenden der Anpassung zum Schätzen von Quantilen

$6$ $3$ $(\mu, \sigma)$ $(2.620334, 0.405454)$ $F$ $75^{\text{th}}$

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

$18.06$ $6$ $3$ $17.76$

Diese Verfahren und dieser Code können im Allgemeinen angewendet werden. Die Theorie der maximalen Wahrscheinlichkeit kann weiter genutzt werden, um ein Konfidenzintervall um das dritte Quartil zu berechnen, wenn dies von Interesse ist.

whuber
quelle

Wow, danke! Ich muss zugeben, dass ich nicht damit gerechnet habe, dass solch eine fortschrittliche (zumindest für mich) Maschine verwendet wird, um eine Lösung zu finden.

Am

Die Maschinerie muss nicht fortgeschritten oder hochentwickelt sein, aber was auch immer Sie tun, sollten Sie den gleichen allgemeinen Grundsätzen dieses Beispiels folgen: Nehmen Sie etwas über die Einkommensverteilung an, verwenden Sie diese, um ein mathematisches Modell anzupassen, überprüfen Sie das Modell auf Angemessenheit und ob es ist Bei einer angemessenen Anpassung wird das Quartil berechnet. Verwenden Sie dabei grafische Methoden, da diese interessante Muster aufdecken können. (Hier besteht das Interesse daran, dass es eine offensichtliche Abweichung von der Lognormalität in der niedrigen Einkommensklasse gibt: Ich würde mich fragen, warum das passiert und was es über diese Population aussagen könnte.)

whuber

+1, tolle Antwort. Sieht so aus, als müsste ich R noch lernen.

Dav

8

Zu lange für einen Kommentar:

Die Antwort von Whubers ist so gut wie jede andere, aber er geht in seinem logarithmischen Normalmodell von einer rechten Schiefe aus. Dies kann für Einkommen einer allgemeinen Bevölkerung realistisch sein, gilt jedoch möglicherweise nicht für Einkommen eines einzelnen Arbeitgebers in einer bestimmten Besoldungsgruppe.

$68$ $64$ $50$ $17.5$ .

$80$ $17.3$

$17$

Henry
quelle

1

16

$16$