Was ist die Interpretation des Interquartilbereichs?

9

Ich habe ein Jahr (365 Tage) täglich Stickstoffdioxidmessungen und das Interquartil (IQR) beträgt 24 Mikrogramm pro Kubikmeter. Was bedeutet "24" in diesem Zusammenhang, abgesehen von der Definition von IQR, die den Unterschied zwischen dem 25. und 75. Perzentil darstellt ? Wie würden Sie diese Zahl beispielsweise einem Journalisten erklären?

Vielen Dank

user2742
quelle
Was ist der Mittelwert oder Median?
mpiktas

Antworten:

18

Aus der Definition definiert dies den Bereich, der 75-25 = 50 Prozent aller gemessenen Werte hält.

: (Median-24/2, Median + 24/2). Der Median sollte irgendwo in der Nähe dieses IQR geschrieben werden.
Das obige war natürlich falsch, es scheint, dass ich beim Schreiben noch geschlafen habe; Entschuldigen Sie das Durcheinander. Es ist wahr, dass IQR die Breite eines Bereichs ist, der 50% der Daten enthält, aber nicht im Median zentriert ist - man muss sowohl Q1 als auch Q3 kennen, um diesen Bereich zu lokalisieren.

Im Allgemeinen kann IQR als nichtparametrisch (= wenn wir nicht annehmen, dass die Verteilung Gauß'sch ist) äquivalent zur Standardabweichung angesehen werden - beide messen die Streuung der Daten. (Äquivalent ungleich für SD (Mittelwert- , Mittelwert + ) enthält 68,2% der perfekt normalverteilten Daten).σσσ

BEARBEITEN: So sieht es beispielsweise bei normalen Daten aus. rote Linien zeigen , der Bereich, der durch das Kästchen auf dem Kästchenplot angezeigt wird, zeigt IQR, das Histogramm zeigt die Daten selbst: Sie können sehen, dass beide ziemlich gut verteilt sind; Bereich enthält (wie erwartet) 68,3% der Daten. Bei nicht normalen Daten wird der SD-Spread aufgrund des langen, asymmetrischen Schwanzes erweitert und enthält 90,5% der Daten! (IQR hält per Definition in beiden Fällen 50%)± 1 σ ± 1 σ±1σAlt-Text
±1σ
Alt-Text
±1σ

Utsav T.
quelle
13

Dies ist eine einfache Frage, die nach einer einfachen Antwort fragt. Hier ist eine Liste von Aussagen, die mit den grundlegendsten beginnen und mit genaueren Qualifikationen fortfahren.

Der IQR ist die Verteilung der mittleren Datenhälfte.

Ohne Annahmen darüber zu treffen, wie die Daten verteilt sind , quantifiziert der IQR den Betrag, um den einzelne Werte typischerweise variieren.

Der IQR hängt mit der bekannten "Standardabweichung" (SD) zusammen: Wenn die Daten einer "Glockenkurve" folgen, ist der IQR etwa 35% größer als der SD. (Entsprechend macht der SD etwa drei Viertel des IQR aus.)

Als Faustregel gilt, dass Datenwerte, die um mehr als das Doppelte des IQR vom Mittelwert abweichen, individuelle Aufmerksamkeit verdienen. Sie werden "Ausreißer" genannt. Datenwerte, die um mehr als das 3,5-fache des IQR vom Mittelwert abweichen, werden in der Regel genau untersucht. Sie werden manchmal als "weit entfernte Ausreißer" bezeichnet.

whuber
quelle
6

Der Interquartilbereich ist ein Intervall , kein Skalar. Sie sollten immer beide Zahlen angeben, nicht nur den Unterschied zwischen ihnen. Sie können es dann erklären, indem Sie sagen, dass die Hälfte der Stichprobenwerte zwischen diesen beiden Werten lag, ein Viertel kleiner als das untere Quartil und ein Viertel höher als das obere Quartil.

ein Stop
quelle
4
@onestop Dies veranlasst mich zu überlegen, ob IQR ein Intervall oder ein Skalar sein soll. Aus Wikipedia wird es als Skalar definiert und stimmt mit dem überein, was ich gelernt habe.
user2742
2
Ich habe immer gewusst, dass der IQR der Unterschied zwischen dem 3. und dem 1. Quartil ist, daher ein Skalar.
Nico
2
Obwohl IQR als Skalar definiert werden kann, enthält es viel mehr Informationen, wenn es als Intervall gemeldet wird. Zum Beispiel haben [-1,1] und [499,501] den gleichen Bereich, aber die Auswirkungen sind unterschiedlich.
mpiktas
1
(IMHO) IQR ist ein Skalar: Es ist die Länge eines Intervalls. Da es immer möglich ist, von der zweiten (in einer Teilmenge von R ^ 2 liegend) zur ersten (in R + liegend) überzugehen, aber nicht umgekehrt, ist die letztere informativer als die erstere.
glasig
1
Ich habe erwartet, dass dies kontrovers ist und erkenne, dass es nicht die übliche Definition ist, aber ich denke, es ist eine nützlichere. Nach meiner Erfahrung mit der medizinischen Literatur ist es weitaus üblicher, beide Quartile als IQR zu bezeichnen, als den Unterschied zwischen ihnen, und ich bin froh, dass dies der Fall ist.
Onestop
1

Grob gesagt würde ich einem Journalisten sagen, dass ich den täglichen Stickstoffdioxidgehalt als sicher erklären könnte, nachdem ich die höchsten und niedrigsten Werte verworfen habe, dass an jedem der halben Tage in diesem Jahr der beobachtete Wert ist nicht über eine Entfernung von IQR / 2 vom angegebenen Niveau hinaus.

Wenn Ihr erstes und drittes Quartil beispielsweise 100 und 124 sind, können Sie sagen, dass das tägliche Niveau 112 (Durchschnitt von 100 und 124) beträgt, und Ihrem Gesprächspartner versichern, dass der Fehler, den Sie machen, in der Hälfte der Tage nicht größer als 12 ist .

glasig
quelle
Können Sie die Unterscheidung erklären, die Sie zwischen "beobachtetem" und "deklariertem" Niveau machen? (Ich vermute auch, dass ein guter Journalist von der Implikation
gestört wird,
@whuber: Ich füge meiner Antwort ein Beispiel hinzu. Ich nehme an, dass die schwierigen Fragen auch dann auftreten, wenn Sie sich auf die Normalverteilung (wie andere Antworten auf diese Frage) oder ein anderes Konzept beziehen. Könnte es einfacher sein, einen Mittelwert von 50% zu erklären? Wenn es so ist, dann sagen Sie, dass der IQR die Länge des Bereichs seiner Beobachtungen ist
glasig