Gibt es mehr als eine „Medianformel“?

16

Wenn sich Personen in meiner Arbeit auf den "Mittelwert" eines Datensatzes beziehen, beziehen sie sich normalerweise auf den arithmetischen Mittelwert (dh "Durchschnitt" oder "Erwartungswert"). Wenn ich den geometrischen Mittelwert bereitstellen würde, würden die Leute wahrscheinlich denken, dass ich hinterhältig oder nicht hilfreich bin, da die Definition von "Mittelwert" im Voraus bekannt ist.

Ich versuche festzustellen, ob es mehrere Definitionen des "Medians" eines Datensatzes gibt. Eine der Definitionen, die ein Kollege zum Ermitteln des Medians eines Datensatzes mit einer geraden Anzahl von Elementen bereitstellt, lautet beispielsweise:

Algorithmus 'A'

  • Teilen Sie die Anzahl der Elemente durch zwei, runden Sie ab.
  • Dieser Wert ist der Index des Medians.
  • Dh für die folgende Menge wäre der Median 5.
  • [4, 5, 6, 7]

Dies scheint sinnvoll zu sein, obwohl der Abrundungsaspekt etwas willkürlich erscheint.

Algorithmus 'B'

Auf jeden Fall hat ein anderer Kollege einen eigenen Algorithmus vorgeschlagen, der in einem Statistiklehrbuch von ihm stand (Name und Autor müssen abgefragt werden):

  • Teilen Sie die Anzahl der Elemente durch 2 und behalten Sie eine Kopie der gerundeten und abgerundeten ganzen Zahlen. Nennen Sie sie n_lound n_hi.
  • Nehmen Sie das arithmetische Mittel der Elemente an n_lound n_hi.
  • Dh für die folgende Menge wäre der Median (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Dies scheint jedoch falsch zu sein, da der Medianwert 5.5in diesem Fall nicht im Originaldatensatz enthalten ist. Als wir in einem Testcode den Algorithmus 'A' gegen 'B' austauschten, brach dieser fürchterlich zusammen (wie wir erwartet hatten).

Frage

Gibt es einen formalen "Namen" für diese beiden Ansätze zur Berechnung des Medians eines Datensatzes? dh "kleiner-der-zwei-Median" versus "Mittelwert-der-mittleren-Elemente-und-Make-New-Data-Median"?

Wolke
quelle
16
Ich habe den Algorithmus "A" noch nie als Median gesehen. Es sollte kein Problem sein, dass eine deskriptive Statistik der zentralen Tendenz von Daten nicht in den Daten selbst enthalten ist: Schließlich sind die meisten Mittel auch nicht in den Daten enthalten. Eine grundlegendere Eigenschaft, die der Median haben soll, ist, dass er sich nicht ändert, wenn die Reihenfolge der Daten umgekehrt wird, da die Reihenfolge der Daten von klein nach groß oder von groß nach klein eine willkürliche Geschmackssache ist. Aus diesem Grund definieren die meisten Autoren den Median wie im Algorithmus "B", da dies bei weitem das einfachste mögliche ordnungsinvariante Verfahren ist.
Whuber
3
@whuber-Algorithmus 'A' wird manchmal als niedriger Median bezeichnet . Natürlich gibt es auch einen entsprechenden High-Median. Normalerweise ist der Median der Durchschnitt der beiden Werte (der ein Element aus der Menge sein kann oder nicht, über die der Median berechnet wird).
user603
8
Ein guter Zeitpunkt und ein guter Ort, um die Bemerkung zu wiederholen, dass die beiden zentralen Werte in einer geordneten Stichprobe mit einer geraden Anzahl von Beobachtungen - wie 3 und 4 in 1, 2, 3, 4, 5, 6 - als Komiker anzusehen sind (unabhängig von SM Stigler, R. Koenker und ohne Zweifel anderen).
Nick Cox
3
Fehlt beiden Algorithmen nicht der entscheidende Schritt zum Sortieren der Daten?
Emil
3
Wenn Ihr "Median" immer ein Element des Datensatzes sein soll, suchen Sie möglicherweise tatsächlich nach einem Medoid .
Ilmari Karonen

Antworten:

23

TL; DR - Mir sind keine spezifischen Namen bekannt, die verschiedenen Schätzern von Stichprobenmedianen gegeben werden. Die Methoden zur Schätzung von Stichprobenstatistiken aus einigen Daten sind recht pingelig und unterschiedliche Ressourcen geben unterschiedliche Definitionen.

In Hogg, McKean und Craig Einführung in die Mathematische Statistik , geben die Autoren eine Definition der Mediane von Zufallsproben , aber nur in dem Fall , dass es eine ungerade Anzahl von Proben! Die Autoren schreiben

nY.(n+1)/2

Y.ichich

n

Algorithmus B hat die Eigenschaft, dass die Hälfte der Daten den Wert überschreitet und die Hälfte der Daten den Wert unterschreitet. In Anbetracht der Definition des Medians einer Zufallsvariablen scheint dies gut zu sein.


Ob ein bestimmter Schätzer Einheitentests unterbricht oder nicht, ist eine Eigenschaft der Einheitentests - Einheitentests, die gegen einen bestimmten Schätzer geschrieben wurden, haben nicht unbedingt Gültigkeit, wenn Sie einen anderen Schätzer einsetzen. Im Idealfall wurden die Komponententests ausgewählt, da sie die kritischen Anforderungen Ihres Unternehmens widerspiegeln und nicht aufgrund eines doktrinären Streits über Definitionen.

Sycorax sagt Reinstate Monica
quelle
2
(+1) Wir können auch hinzufügen, dass (1) Wenn Werte mit Gewichten kommen, muss die Definition von Medianen im Prinzip und in der Praxis dies auch abdecken. (Implizit in den bisherigen Antworten sind alle Gewichtungen gleich und daher unerheblich.) Während die lineare Interpolation in der kumulativen Summe der Gewichtungen am einfachsten ist, gibt es Situationen, in denen andere Arten der Interpolation sinnvoll sein könnten. (2) Strengere Definitionen des Medians sollen normalerweise diskrete und kontinuierliche sowie hybride Verteilungen abdecken, einschließlich solcher mit Wahrscheinlichkeitsspitzen irgendwo.
Nick Cox
25

Was @Sycorax sagt.

Tatsächlich gibt es überraschend viele Definitionen allgemeiner Quantile, insbesondere auch von Medianen. Hyndman & Fan (1996, The American Statistician ) geben einen noch umfassenden Überblick, AFAIK. Die verschiedenen Typen haben keine formalen Namen. Möglicherweise müssen Sie nur wissen, welchen Typ Sie verwenden. (Bei Datensätzen mit realistischen Größen macht es oft keinen großen Unterschied.)

Beachten Sie, dass es allgemein akzeptiert wird, einen Wert zu haben, der im Datensatz nicht als Median vorhanden ist, z. B. 5.5 als Median für (4, 5, 6, 7). Dies ist das Standardverhalten für R:

> median(4:7)
[1] 5.5

R median()verwendet standardmäßig Typ 7 von Hyndman & Fan-Klassifikation.

S. Kolassa - Setzen Sie Monica wieder ein
quelle
6
+1 für "Bei Datensätzen mit realistischen Größen macht es oft keinen großen Unterschied." Ich werde das stehlen, anstatt meiner üblichen "Wenn es einen Materialunterschied macht, brauchen Sie wahrscheinlich mehr Daten." :)
Jason
1
Wenn Sie eine binäre Variable mit den Werten 0, 1 (etwa) und mit etwa gleich vielen 0s und 1s (Mittelwert in der Nähe von 0,5) haben, stoppt eine große Stichprobengröße nicht unbedingt das Hin- und Herwechseln des gemeldeten Medians zwischen 0, 0,5 und 1. Mosteller und Tukey ( Data Analysis and Regression 1977) zitieren stark bimodale und nahezu symmetrische Verteilungen als Fälle, in denen sich der Median möglicherweise nicht besonders gut verhält.
Nick Cox
3

In der madFunktion von R werden die Begriffe "lo-median" verwendet, um Ihren Algorithmus A zu beschreiben, "hi-median", um stattdessen das Aufrunden zu beschreiben, und nur "median", um Ihren Algorithmus B zu beschreiben (was, wie andere angemerkt haben, bei weitem der Fall ist die gebräuchlichste Definition).

Seltsamerweise gibt es keine solche Option für die median()Funktion von R ! (Aber R quantile()hat typefür die Feinsteuerung.)

Darren Cook
quelle