Wenn sich Personen in meiner Arbeit auf den "Mittelwert" eines Datensatzes beziehen, beziehen sie sich normalerweise auf den arithmetischen Mittelwert (dh "Durchschnitt" oder "Erwartungswert"). Wenn ich den geometrischen Mittelwert bereitstellen würde, würden die Leute wahrscheinlich denken, dass ich hinterhältig oder nicht hilfreich bin, da die Definition von "Mittelwert" im Voraus bekannt ist.
Ich versuche festzustellen, ob es mehrere Definitionen des "Medians" eines Datensatzes gibt. Eine der Definitionen, die ein Kollege zum Ermitteln des Medians eines Datensatzes mit einer geraden Anzahl von Elementen bereitstellt, lautet beispielsweise:
Algorithmus 'A'
- Teilen Sie die Anzahl der Elemente durch zwei, runden Sie ab.
- Dieser Wert ist der Index des Medians.
- Dh für die folgende Menge wäre der Median
5
. [4, 5, 6, 7]
Dies scheint sinnvoll zu sein, obwohl der Abrundungsaspekt etwas willkürlich erscheint.
Algorithmus 'B'
Auf jeden Fall hat ein anderer Kollege einen eigenen Algorithmus vorgeschlagen, der in einem Statistiklehrbuch von ihm stand (Name und Autor müssen abgefragt werden):
- Teilen Sie die Anzahl der Elemente durch 2 und behalten Sie eine Kopie der gerundeten und abgerundeten ganzen Zahlen. Nennen Sie sie
n_lo
undn_hi
. - Nehmen Sie das arithmetische Mittel der Elemente an
n_lo
undn_hi
. - Dh für die folgende Menge wäre der Median
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Dies scheint jedoch falsch zu sein, da der Medianwert 5.5
in diesem Fall nicht im Originaldatensatz enthalten ist. Als wir in einem Testcode den Algorithmus 'A' gegen 'B' austauschten, brach dieser fürchterlich zusammen (wie wir erwartet hatten).
Frage
Gibt es einen formalen "Namen" für diese beiden Ansätze zur Berechnung des Medians eines Datensatzes? dh "kleiner-der-zwei-Median" versus "Mittelwert-der-mittleren-Elemente-und-Make-New-Data-Median"?
quelle
Antworten:
TL; DR - Mir sind keine spezifischen Namen bekannt, die verschiedenen Schätzern von Stichprobenmedianen gegeben werden. Die Methoden zur Schätzung von Stichprobenstatistiken aus einigen Daten sind recht pingelig und unterschiedliche Ressourcen geben unterschiedliche Definitionen.
In Hogg, McKean und Craig Einführung in die Mathematische Statistik , geben die Autoren eine Definition der Mediane von Zufallsproben , aber nur in dem Fall , dass es eine ungerade Anzahl von Proben! Die Autoren schreiben
Algorithmus B hat die Eigenschaft, dass die Hälfte der Daten den Wert überschreitet und die Hälfte der Daten den Wert unterschreitet. In Anbetracht der Definition des Medians einer Zufallsvariablen scheint dies gut zu sein.
Ob ein bestimmter Schätzer Einheitentests unterbricht oder nicht, ist eine Eigenschaft der Einheitentests - Einheitentests, die gegen einen bestimmten Schätzer geschrieben wurden, haben nicht unbedingt Gültigkeit, wenn Sie einen anderen Schätzer einsetzen. Im Idealfall wurden die Komponententests ausgewählt, da sie die kritischen Anforderungen Ihres Unternehmens widerspiegeln und nicht aufgrund eines doktrinären Streits über Definitionen.
quelle
Was @Sycorax sagt.
Tatsächlich gibt es überraschend viele Definitionen allgemeiner Quantile, insbesondere auch von Medianen. Hyndman & Fan (1996, The American Statistician ) geben einen noch umfassenden Überblick, AFAIK. Die verschiedenen Typen haben keine formalen Namen. Möglicherweise müssen Sie nur wissen, welchen Typ Sie verwenden. (Bei Datensätzen mit realistischen Größen macht es oft keinen großen Unterschied.)
Beachten Sie, dass es allgemein akzeptiert wird, einen Wert zu haben, der im Datensatz nicht als Median vorhanden ist, z. B. 5.5 als Median für (4, 5, 6, 7). Dies ist das Standardverhalten für R:
R
median()
verwendet standardmäßig Typ 7 von Hyndman & Fan-Klassifikation.quelle
In der
mad
Funktion von R werden die Begriffe "lo-median" verwendet, um Ihren Algorithmus A zu beschreiben, "hi-median", um stattdessen das Aufrunden zu beschreiben, und nur "median", um Ihren Algorithmus B zu beschreiben (was, wie andere angemerkt haben, bei weitem der Fall ist die gebräuchlichste Definition).Seltsamerweise gibt es keine solche Option für die
median()
Funktion von R ! (Aber Rquantile()
hattype
für die Feinsteuerung.)quelle