PSYs Musikvideo "Gangnam Style" ist beliebt, nach etwas mehr als 2 Monaten hat es etwa 540 Millionen Zuschauer. Ich habe das letzte Woche von meinen jugendlichen Kindern beim Abendessen erfahren und bald ging die Diskussion dahin, ob es möglich ist, eine Art Vorhersage darüber zu treffen, wie viele Zuschauer es in 10-12 Tagen geben wird und wann (/ ob) das Lied wird 800 Millionen Zuschauer oder 1 Milliarde Zuschauer passieren.
Hier ist das Bild von der Anzahl der Zuschauer seit der Veröffentlichung:
Hier ist das Bild von den Zuschauern der Musikvideos No1 "Justin Biever-Baby" und No2 "Eminem - Love the way you lie", die beide schon viel länger existieren
Mein erster Versuch, über das Modell nachzudenken, war, dass es eine S-Kurve sein sollte, aber dies scheint nicht zu den Songs No1 und No2 zu passen und auch nicht, dass es keine Begrenzung für die Anzahl der Aufrufe des Musikvideos gibt kann nur ein langsameres Wachstum haben.
Meine Frage lautet also: Welche Art von Modell sollte ich verwenden, um die Anzahl der Zuschauer des Musikvideos vorherzusagen?
Antworten:
Aha, ausgezeichnete Frage !!
Ich hätte auch naiv eine S-förmige logistische Kurve vorgeschlagen, aber dies ist offensichtlich eine schlechte Anpassung. Soweit mir bekannt ist, ist die ständige Zunahme ein Näherungswert, da YouTube die eindeutigen Ansichten zählt (eine pro IP-Adresse), sodass es nicht mehr Ansichten als Computer geben kann.
Wir könnten ein epidemiologisches Modell verwenden, bei dem die Anfälligkeit der Menschen unterschiedlich ist. Um es einfach zu machen, könnten wir es in die Hochrisikogruppe (sagen wir die Kinder) und die Niedrigrisikogruppe (sagen wir die Erwachsenen) einteilen. Nennen wir den Anteil "infizierter" Kinder und den Anteil "infizierter" Erwachsener zum Zeitpunkt . Ich werde die (unbekannte) Anzahl von Personen in der Hochrisikogruppe und die (ebenfalls unbekannte) Anzahl von Personen in der Niedrigrisikogruppe nennen.x(t) y(t) t X Y
wo . Ich weiß nicht, wie ich dieses System lösen soll (vielleicht würde @EpiGrad es tun), aber wenn wir uns Ihre Grafiken ansehen, könnten wir ein paar vereinfachende Annahmen treffen. Da das Wachstum nicht gesättigt ist, können wir annehmen, dass sehr groß und klein ist, oderr1>r2 Y y
Dies sagt ein lineares Wachstum voraus, sobald die Hochrisikogruppe vollständig infiziert ist. Beachten Sie, dass es bei diesem Modell keinen Grund gibt, anzunehmen , ganz im Gegenteil, da der große Term jetzt in subsumiert wird .r1>r2 Y−y(t) r2
Dieses System löst auf
Dabei sind und Integrationskonstanten. Die gesamte "infizierte" Population ist dann , die 3 Parameter und 2 Integrationskonstanten hat (Anfangsbedingungen). Ich weiß nicht, wie einfach es wäre zu passen ...C1 C2 x(t)+y(t)
Update: Beim mit den Parametern konnte ich die Form der oberen Kurve mit diesem Modell nicht reproduzieren, der Übergang von auf ist immer schärfer als oben. Wenn wir mit der gleichen Idee fortfahren, könnten wir wieder annehmen, dass es zwei Arten von Internetnutzern gibt: die "Teiler" und die "Einzelgänger" . Die Sharer infizieren sich gegenseitig, die Einzelgänger stoßen zufällig auf das Video. Das Modell ist0 600,000,000 x(t) y(t)
und löst auf
Wir könnten annehmen, dass , dh dass zum nur Patient 0 ist , was ergibt, weil ist eine große Anzahl. daher können wir annehmen, dass . Jetzt bestimmen nur die 3 Parameter , und die Dynamik.x(0)=1 t=0 C1=1X−1≈1X X C2=y(0) C2=0 X r1 r2
Selbst bei diesem Modell scheint die Beugung sehr scharf zu sein, es ist keine gute Passform, daher muss das Modell falsch sein. Das macht das Problem eigentlich sehr interessant. Die folgende Abbildung wurde als Beispiel mit , und .X=600,000,000 r1=3.667⋅10−10 r2=1,000,000
Update: Aus den Kommentaren ging hervor, dass Youtube (auf geheime Weise) Aufrufe und keine eindeutigen IPs zählt, was einen großen Unterschied macht. Zurück zum Zeichenbrett.
Um es einfach zu halten, nehmen wir an, dass die Zuschauer durch das Video "infiziert" sind. Sie schauen sich das regelmäßig an, bis die Infektion beseitigt ist. Eines der einfachsten Modelle ist das SIR (Susceptible-Infected-Resistant):
In diesem Modell steigt die Anzahl der Aufrufe einige Zeit nach dem Ausbruch der Infektion abrupt an, was in den Originaldaten nicht der Fall ist, möglicherweise, weil sich Videos auch auf nicht virale (oder meme) Weise verbreiten. Ich bin kein Experte für die Schätzung der Parameter des SIR-Modells. Ich spiele nur mit verschiedenen Werten. Hier ist, was ich mir ausgedacht habe (in R).
Das Modell ist offensichtlich nicht perfekt und könnte auf viele solide Arten ergänzt werden. Diese sehr grobe Skizze sagt ungefähr im März 2013 eine Milliarde Aufrufe voraus, mal sehen ...
quelle
Das wahrscheinlich gebräuchlichste Modell für die Vorhersage der Einführung neuer Produkte ist das Bass-Diffusionsmodell , das - ähnlich wie die Antwort von @ gui11aume - die Interaktionen zwischen aktuellen und potenziellen Benutzern modelliert. Die Einführung neuer Produkte ist ein ziemlich heißes Thema in der Prognose. Die Suche nach diesem Begriff sollte Unmengen von Informationen liefern (für die ich hier leider keine Zeit habe, näher darauf einzugehen ...).
quelle
Ich würde mir die Gompertz-Wachstumskurve ansehen .
Die Gompertz-Kurve ist eine 3-Parameter (a, b, c) -Doppelexponentialformel mit der Zeit T als unabhängige Variable.
R-Code:
Es ist bekannt, dass die Gompertz-Wachstumsformel viele Lebenszyklusphänomene beschreibt, bei denen sich das Wachstum zunächst beschleunigt und sich dann verjüngt, was zu einer asymmetrischen Sigmoidkurve führt, deren Ableitung links steiler ist als rechts vom Peak. Beispielsweise folgt die Gesamtzahl der Artikel auf Wikipedia, die ebenfalls viraler Natur sind, seit vielen Jahren mit großer Genauigkeit einer Gompertz-Wachstumskurve (mit bestimmten a, b, c-Parametern).
Bearbeiten: Wenn die Gompertz-Kurve nicht ausreicht, um die gesuchte Form zu approximieren, können Sie Parameter
d
& θ hinzufügen, wie in Die Exponentaited Generalized Weibull Gompertz Distribution beschrieben . Beachten Sie, dass dieses Papierx
anstelle dest
unabhängigen Zeitparameters verwendet. Interessanterweise änderte Wikipedia auch ihre beste Annäherung, indem es einen einzelnen vierten Parameter hinzufügted
, um eine Abweichung der Vorhersage vom tatsächlichen Wert nach 2012 zu berücksichtigen . Die modifizierte 4-Parameter-Gompertz-Kurvenformel lautet:Die Gompertz-Funktion ist nach Benjamin Gompertz (1779-1865) benannt , einem Gauß-Zeitgenossen (nur 2 Jahre jünger als Gauß), dem ersten Mathematiker, der sie beschreibt.
quelle
Ich denke, man muss Phänomene wie den Gangnam-Stil von Justin Bieber und Eminem trennen, die selbst große Künstler sind und sich auch in einem traditionellen Umfeld weit verbreiten würden. JB oder Eminem würden auch viele Singles verkaufen, ich bin mir nicht sicher, ob PSY das tun würde.
quelle
Okay Leute, wir brauchen ein paar stilisierte Fakten zur Verbreitung von YouTube-Videos, die Muster nahe legen, die sich von der üblichen Literatur zur Verbreitung von Produkten unterscheiden. Ein guter Anfang ist Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn und Sue Moon, 2007 Konferenz über Internetmessung, ISBN: 978-1-59593-908-1.
und
X Cheng, C Dale, J Liu, 2008, Statistik und soziales Netzwerk von Youtube-Videos, im Verfahren des Internationalen Workshops zur Dienstgüte (IWQoS), Enschede, Niederlande, Juni.
quelle
Angesichts der Abschwächung der Aussichten in der vergangenen Woche sieht das Datum des 13. März wie eine anständige Wette aus. Die Mehrheit der neuen Ansichten scheinen bereits infizierte Benutzer zu sein, die mehrmals pro Tag zurückkehren.
In Bezug auf die Ergänzung Ihres Modells besteht eine Methode, mit der Forscher die Ausbreitung eines Virus verfolgen, darin, seine Genommutationen zu überwachen. Wann und wo er mutiert ist, zeigt Forschern, wie schnell ein Virus übertragen und verbreitet wird (siehe Nachverfolgung des West-Nil-Virus in den USA). .
In praktischer Hinsicht mutieren Videos wie Gangnam Style und Party Rock Anthem (von der Gruppe LMFAO) eher zu Parodien, Flashmobs, Hochzeitstänzen, Remixen und anderen Videoantworten, als etwa Justin Biebers Baby- oder Eminems Songs.
Die Forscher konnten die Anzahl der Videoantworten (und insbesondere der Parodien) als Proxy für Mutationen analysieren. Das Messen der Häufigkeit und Beliebtheit dieser Mutationen in einem frühen Stadium des Videos könnte hilfreich sein, wenn Sie die YouTube-Aufrufe für die gesamte Lebensdauer modellieren.
quelle