Gibt es einen technischen Trick, um das dritte Quartil zu bestimmen, wenn es zu einem offenen Intervall gehört, das mehr als ein Viertel der Bevölkerung enthält (also kann ich das Intervall nicht schließen und die Standardformel verwenden)?
Bearbeiten
Falls ich etwas missverstanden habe, werde ich mehr oder weniger vollständigen Kontext bereitstellen. Ich habe Daten in einer Tabelle mit zwei Spalten und 6 Zeilen angeordnet. Zu jeder Spalte gehört ein Intervall (in der ersten Spalte) und eine Bevölkerungsmenge, die zu diesem Intervall "gehört". Das letzte Intervall ist offen und umfasst mehr als 25% der Bevölkerung. Alle Intervalle (mit Ausnahme des letzten) haben den gleichen Bereich.
Beispieldaten (zur Präsentation übertragen):
Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2: 51, 65, 68, 82, 78, 182
Die erste Spalte ist als Einkommensbereich zu interpretieren. Die zweite ist als Anzahl der Mitarbeiter zu interpretieren, deren Einkommen zum Intervall gehört.
Die Standardformel, über die ich nachdenke, ist .
quelle
Antworten:
Sie müssen diese zusammengefassten Daten mit einem Verteilungsmodell kombinieren, da dies die einzige Möglichkeit ist, ins obere Quartil zu extrapolieren.
Ein Model
Per Definition ist ein solches Modell durch eine Cadlag- Funktion die von 0 auf 1 steigt . Die Wahrscheinlichkeit, die einem Intervall ( a , b) zugewiesen wird, ist F ( b ) - F ( a ) . Um die Anpassung vorzunehmen, müssen Sie eine Familie möglicher Funktionen setzen, die durch einen (Vektor) -Parameter θ , { F θ } indiziert sind. Angenommen, die Stichprobe fasst eine Ansammlung von Personen zusammen, die nach dem Zufallsprinzip und unabhängig von einer Population ausgewählt wurden, die durch ein bestimmtes (aber unbekanntes) F θ beschrieben wirdF 0 1 (a,b] F(b)−F(a) θ {Fθ} Fθ die Wahrscheinlichkeit der Probe (oder Wahrscheinlichkeit , ) ist das Produkt der Einzelwahrscheinlichkeiten. Im Beispiel wäre es gleichL
da der Personen zugeordnete Wahrscheinlichkeiten F θ ( 8 ) - F θ ( 6 ) haben , haben 65 Wahrscheinlichkeiten F θ ( 10 ) - F θ (51 Fθ( 8 ) - Fθ( 6 ) 65 , und so weiter.Fθ( 10 ) - Fθ( 8 )
Anpassen des Modells an die Daten
Die Maximum-Likelihood-Schätzung von ist ein Wert, der L maximiert (oder äquivalent den Logarithmus vonθ L ).L
Einkommensverteilungen werden häufig durch logarithmische Normalverteilungen modelliert (siehe z. B. http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Wenn man schreibt, ist die Familie der logarithmischen Normalverteilungenθ = ( μ ,σ)
Für diese Familie (und viele andere) ist es einfach, numerisch zu optimieren . Zum Beispiel würden wir in eine Funktion schreiben, um log ( L ( θ ) ) zu berechnen und dann zu optimieren, da das Maximum von log ( L ) mit dem Maximum von L selbst und (normalerweise) log ( L ) übereinstimmt.L Log(L(θ)) log(L) L log(L) einfacher zu berechnen ist und numerisch stabiler zu arbeiten mit:
R
Die Lösung in diesem Beispiel ist , in dem Wert gefunden .θ=(μ,σ)=(2.620945,0.379682)
fit$par
Modellannahmen überprüfen
Wir müssen zumindest überprüfen, wie gut dies mit der angenommenen Lognormalität übereinstimmt, also schreiben wir eine Funktion, um zu berechnen :F
Es wird auf die Daten angewendet, um die angepassten oder "vorhergesagten" Behälterpopulationen zu erhalten:
Wir können Histogramme der Daten und der Vorhersage zeichnen, um sie visuell zu vergleichen. Dies wird in der ersten Reihe dieser Diagramme gezeigt:
Zum Vergleich können wir eine Chi-Quadrat-Statistik berechnen. Dies wird üblicherweise als Chi-Quadrat-Verteilung bezeichnet, um die Signifikanz zu bestimmen :
Verwenden der Anpassung zum Schätzen von Quantilen
Diese Verfahren und dieser Code können im Allgemeinen angewendet werden. Die Theorie der maximalen Wahrscheinlichkeit kann weiter genutzt werden, um ein Konfidenzintervall um das dritte Quartil zu berechnen, wenn dies von Interesse ist.
quelle
Zu lange für einen Kommentar:
Die Antwort von Whubers ist so gut wie jede andere, aber er geht in seinem logarithmischen Normalmodell von einer rechten Schiefe aus. Dies kann für Einkommen einer allgemeinen Bevölkerung realistisch sein, gilt jedoch möglicherweise nicht für Einkommen eines einzelnen Arbeitgebers in einer bestimmten Besoldungsgruppe.
quelle