Wann Mittelwert gegen Median zu verwenden ist

7

Ich bin neu in Data Science und Statistiken, daher scheint dies eine Anfängerfrage zu sein.

Ich arbeite an einem Datensatz, bei dem die Twitter-Follower des Benutzers pro Tag zunehmen. Ich möchte das durchschnittliche Wachstum messen, das er über einen bestimmten Zeitraum hatte, indem ich den Mittelwert des Wachstums ermittelt habe. Aber jemand schlägt mir vor, dafür den Median zu verwenden.

Kann jemand erklären, in welchem ​​Anwendungsfall wir den Mittelwert verwenden sollten und wann der Median verwendet werden soll?

Mukul Jain
quelle

Antworten:

10

Das arithmetische Mittel wird als bezeichnet x¯

x¯=1nich=1nxich

wo jeder xichstellen eine einzigartige Beobachtung dar. Das arithmetische Mittel misst den Durchschnittswert für einen bestimmten Satz von Zahlen.

Im Gegensatz dazu ist der Median der Wert, der direkt in die Mitte Ihres Datensatzes fällt. Der Median ist besonders nützlich, wenn Sie mit einem weiten Bereich zu tun haben oder wenn es einen Ausreißer gibt (eine sehr hohe oder niedrige Zahl im Vergleich zum Rest), der den Mittelwert verzerren würde.

Beispielsweise werden Gehälter normalerweise mit Medianwerten besprochen. Dies liegt an der großen Ungleichheit zwischen der Mehrheit der Menschen und einigen wenigen Menschen mit viel Geld (wobei die wenigen Menschen mit viel Geld die Ausreißer sind). Wenn Sie also das 50% -Perzentil betrachten, erhalten Sie unter diesen Umständen einen repräsentativeren Wert als den Mittelwert.

Alternativ werden Noten normalerweise mit dem Mittelwert (Durchschnitt) beschrieben, da die meisten Schüler nahe am Durchschnitt liegen sollten und nur wenige weit darunter oder weit darüber liegen.

JahKnows
quelle
1
Das ist eine gute Antwort. Wenn ich es so finde, kann ich meine Daten zeichnen und sehen, ob die Werte kontinuierlich sind. Dann können wir den Mittelwert verwenden. Wenn sie stärker gruppiert sind (einige hoch und andere niedrig), ist der Median besser, oder?
Mukul Jain
1
@ MukulJain, ja, es hängt von der Verteilung der Daten ab, wie Sie erwähnt haben. Das Plotten ist immer mein Weg, um ein Gefühl für meine Daten zu bekommen. Leicht zu erkennende Anomalien und ein Gefühl für die Ausbreitung.
JahKnows
Ich denke, Sie könnten dies besser mit dem Begriff "Ausreißer" erklären
MilkyWay90
1
Wenn Daten viele Ausreißer haben, ist es dann gut, den Median richtig zu verwenden? Ausreißer können mit dem Z-Score (<3 oder> -3) berechnet werden
Mukul Jain
1
@ MukulJain, richtig, und Sie können auch Ausreißer mit p-Wert berechnen,
JahKnows
13

Es hängt davon ab, welche Frage Sie beantworten möchten. Sie betrachten die Änderungsrate einer Zeitreihe und es scheint, als würden Sie versuchen zu zeigen, wie sich diese im Laufe der Zeit geändert hat. Der Mittelwert gibt dem Leser einen intuitiven Einblick: Er kann die Anzahl der Follower zu jedem Zeitpunkt trivial schätzend Tage seit dem Start durch Multiplikation mit der mittleren Änderungsrate.

Der Nachteil dieser einzelnen Metrik ist, dass sie etwas nicht veranschaulicht, was in Serien wie dieser sehr häufig vorkommt: Die Änderungsrate ist nicht über die Zeit festgelegt. Eine vernünftige Metrik, um den Lesern eine Vorstellung davon zu geben, ob die Änderungsrate statisch ist, besteht darin, ihnen den Median zu geben. Wenn sie das Minimum der Reihe (in Ihrem Fall vermutlich Null), den aktuellen Wert, den Mittelwert und den Median kennen, können sie in vielen Fällen ein "Gefühl dafür" bekommen, wie nahe der lineare Anstieg war.

In Anscombes Quartett gibt es eine große warnende Geschichte - vier völlig unterschiedliche Zeitreihen, die alle mehrere wichtige statistische Kennzahlen gemeinsam haben. Grundsätzlich kommt es immer wieder auf das an, was Sie zu beantworten versuchen. Versuchen Sie, Benutzer zu finden, die wahrscheinlich bald prominent werden? Benutzer, die Jahr für Jahr stetig Follower gewinnen? Ein Treffer Wunder? Botnets?

Wie Sie wahrscheinlich erraten haben, bedeutet dies, dass es nicht möglich ist, Mittelwert oder Median allgemein als "besser" als den anderen zu bezeichnen.

l0b0
quelle
2

Einfach gesagt: Wenn Ihre Daten durch Rauschen beschädigt sind oder wie in Ihrem Fall eine falsche Anzahl von Twitter-Followern angegeben wird, kann es nachteilig sein, den Mittelwert als Metrik zu verwenden, da das Modell eine schlechte Leistung erbringt. In diesem Fall werden Ausreißer in den Daten berücksichtigt, wenn Sie den Median der Werte verwenden. Ich hoffe es hilft

karthikeyan mg
quelle
1

Oft ist der Median robuster als der Extremwert. Versuchen Sie, es als Minimierungsaufgabe zu betrachten. Der Median entspricht dem absoluten Verlust, während der Mittelwert dem quadratischen Verlust entspricht.

nan hu
quelle
1

Ich erkläre das sehr oft und das Beispiel, das ich benutze, ist die berühmte Bill Gates-Version. Bill Gates ist in Ihrem Data Science-Kurs. Ihr Lehrer fragt Sie: Was ist das durchschnittliche Einkommen oder Nettovermögen dieser Klasse? Bill Gates verpflichtet sich verlegen und sagt Ihnen, wie hoch sein Einkommen ist. Wenn Sie jetzt sagen, dass das durchschnittliche Einkommen Ihrer Gruppe zig Dollar beträgt - technisch korrekt, beschreibt aber nicht die Realität -, ist Bill Gates ein Ausreißer, der alles verdreht.

Sie ordnen also alle Personen in Ihrer Gruppe in aufsteigender oder absteigender Reihenfolge an - was auch immer die Person in der Mitte macht - das ist Ihr Median. In diesem Beispiel befindet sich wahrscheinlich jeder außer Bill Gates in der Nähe dieses Medians, und Bill Gates ist der einzige, der etwas in der Nähe des Mittelwerts macht.

Sagen wir jetzt, Kumpel Bill Gates stellt einen Geldmanager ein. Basierend auf den bisher erzielten Renditen. Sollte er sich ihre durchschnittlichen Renditen über einen Zeitraum von 10 Jahren oder ihre mittlere Rendite oder eine Kombination aus beiden ansehen? Haben sie den Markt jedes Jahr übertroffen? Einigen Jahren? Wie berücksichtigt die Portfoliogröße? Im Fall von Twitter-Followern hätte Obama ein anderes Wachstum als jemand mit etwa 500.000 bis 1 Millionen Followern. Wie @ l0b0 in seiner ausgezeichneten Antwort anspielt, hängt alles davon ab. Messen Sie das Follower-Wachstum oder die Änderungsrate des Follower-Wachstums und welche Frage versuchen Sie zu beantworten, welche Strategie / welches Produkt Sie entwickeln möchten - entsprechend wählen Sie Mittelwert oder Median. Das Ermitteln des Mittelwerts und des Medians ist immer der einfache Teil. Es ist immer besser, niemals durchschnittlich 2,1 Kinder zu haben. Habe eine ganze Reihe von Kindern. Aber was können Sie über das Bevölkerungswachstum sagen, wenn die durchschnittliche Anzahl der Kinder 2,1 und der Median 1 oder 2 beträgt? Oder Median ist 3 oder mehr? Beschleunigt oder verlangsamt sich das Wachstum? Was macht der Modus? Berechnen Sie zuerst alle Grundlagen - und fragen Sie dann nach dem Grund, warum Sie Mittelwert gegen Median verwenden.

Armipunk
quelle