Ich bin neu in Data Science und Statistiken, daher scheint dies eine Anfängerfrage zu sein.
Ich arbeite an einem Datensatz, bei dem die Twitter-Follower des Benutzers pro Tag zunehmen. Ich möchte das durchschnittliche Wachstum messen, das er über einen bestimmten Zeitraum hatte, indem ich den Mittelwert des Wachstums ermittelt habe. Aber jemand schlägt mir vor, dafür den Median zu verwenden.
Kann jemand erklären, in welchem Anwendungsfall wir den Mittelwert verwenden sollten und wann der Median verwendet werden soll?
quelle
Es hängt davon ab, welche Frage Sie beantworten möchten. Sie betrachten die Änderungsrate einer Zeitreihe und es scheint, als würden Sie versuchen zu zeigen, wie sich diese im Laufe der Zeit geändert hat. Der Mittelwert gibt dem Leser einen intuitiven Einblick: Er kann die Anzahl der Follower zu jedem Zeitpunkt trivial schätzend Tage seit dem Start durch Multiplikation mit der mittleren Änderungsrate.
Der Nachteil dieser einzelnen Metrik ist, dass sie etwas nicht veranschaulicht, was in Serien wie dieser sehr häufig vorkommt: Die Änderungsrate ist nicht über die Zeit festgelegt. Eine vernünftige Metrik, um den Lesern eine Vorstellung davon zu geben, ob die Änderungsrate statisch ist, besteht darin, ihnen den Median zu geben. Wenn sie das Minimum der Reihe (in Ihrem Fall vermutlich Null), den aktuellen Wert, den Mittelwert und den Median kennen, können sie in vielen Fällen ein "Gefühl dafür" bekommen, wie nahe der lineare Anstieg war.
In Anscombes Quartett gibt es eine große warnende Geschichte - vier völlig unterschiedliche Zeitreihen, die alle mehrere wichtige statistische Kennzahlen gemeinsam haben. Grundsätzlich kommt es immer wieder auf das an, was Sie zu beantworten versuchen. Versuchen Sie, Benutzer zu finden, die wahrscheinlich bald prominent werden? Benutzer, die Jahr für Jahr stetig Follower gewinnen? Ein Treffer Wunder? Botnets?
Wie Sie wahrscheinlich erraten haben, bedeutet dies, dass es nicht möglich ist, Mittelwert oder Median allgemein als "besser" als den anderen zu bezeichnen.
quelle
Einfach gesagt: Wenn Ihre Daten durch Rauschen beschädigt sind oder wie in Ihrem Fall eine falsche Anzahl von Twitter-Followern angegeben wird, kann es nachteilig sein, den Mittelwert als Metrik zu verwenden, da das Modell eine schlechte Leistung erbringt. In diesem Fall werden Ausreißer in den Daten berücksichtigt, wenn Sie den Median der Werte verwenden. Ich hoffe es hilft
quelle
Oft ist der Median robuster als der Extremwert. Versuchen Sie, es als Minimierungsaufgabe zu betrachten. Der Median entspricht dem absoluten Verlust, während der Mittelwert dem quadratischen Verlust entspricht.
quelle
Ich erkläre das sehr oft und das Beispiel, das ich benutze, ist die berühmte Bill Gates-Version. Bill Gates ist in Ihrem Data Science-Kurs. Ihr Lehrer fragt Sie: Was ist das durchschnittliche Einkommen oder Nettovermögen dieser Klasse? Bill Gates verpflichtet sich verlegen und sagt Ihnen, wie hoch sein Einkommen ist. Wenn Sie jetzt sagen, dass das durchschnittliche Einkommen Ihrer Gruppe zig Dollar beträgt - technisch korrekt, beschreibt aber nicht die Realität -, ist Bill Gates ein Ausreißer, der alles verdreht.
Sie ordnen also alle Personen in Ihrer Gruppe in aufsteigender oder absteigender Reihenfolge an - was auch immer die Person in der Mitte macht - das ist Ihr Median. In diesem Beispiel befindet sich wahrscheinlich jeder außer Bill Gates in der Nähe dieses Medians, und Bill Gates ist der einzige, der etwas in der Nähe des Mittelwerts macht.
Sagen wir jetzt, Kumpel Bill Gates stellt einen Geldmanager ein. Basierend auf den bisher erzielten Renditen. Sollte er sich ihre durchschnittlichen Renditen über einen Zeitraum von 10 Jahren oder ihre mittlere Rendite oder eine Kombination aus beiden ansehen? Haben sie den Markt jedes Jahr übertroffen? Einigen Jahren? Wie berücksichtigt die Portfoliogröße? Im Fall von Twitter-Followern hätte Obama ein anderes Wachstum als jemand mit etwa 500.000 bis 1 Millionen Followern. Wie @ l0b0 in seiner ausgezeichneten Antwort anspielt, hängt alles davon ab. Messen Sie das Follower-Wachstum oder die Änderungsrate des Follower-Wachstums und welche Frage versuchen Sie zu beantworten, welche Strategie / welches Produkt Sie entwickeln möchten - entsprechend wählen Sie Mittelwert oder Median. Das Ermitteln des Mittelwerts und des Medians ist immer der einfache Teil. Es ist immer besser, niemals durchschnittlich 2,1 Kinder zu haben. Habe eine ganze Reihe von Kindern. Aber was können Sie über das Bevölkerungswachstum sagen, wenn die durchschnittliche Anzahl der Kinder 2,1 und der Median 1 oder 2 beträgt? Oder Median ist 3 oder mehr? Beschleunigt oder verlangsamt sich das Wachstum? Was macht der Modus? Berechnen Sie zuerst alle Grundlagen - und fragen Sie dann nach dem Grund, warum Sie Mittelwert gegen Median verwenden.
quelle