Modell zur Vorhersage der Anzahl der Youtube-Aufrufe von Gangnam Style

73

PSYs Musikvideo "Gangnam Style" ist beliebt, nach etwas mehr als 2 Monaten hat es etwa 540 Millionen Zuschauer. Ich habe das letzte Woche von meinen jugendlichen Kindern beim Abendessen erfahren und bald ging die Diskussion dahin, ob es möglich ist, eine Art Vorhersage darüber zu treffen, wie viele Zuschauer es in 10-12 Tagen geben wird und wann (/ ob) das Lied wird 800 Millionen Zuschauer oder 1 Milliarde Zuschauer passieren.

Hier ist das Bild von der Anzahl der Zuschauer seit der Veröffentlichung: PSY OGS

Hier ist das Bild von den Zuschauern der Musikvideos No1 "Justin Biever-Baby" und No2 "Eminem - Love the way you lie", die beide schon viel länger existieren Justin Eminem

Mein erster Versuch, über das Modell nachzudenken, war, dass es eine S-Kurve sein sollte, aber dies scheint nicht zu den Songs No1 und No2 zu passen und auch nicht, dass es keine Begrenzung für die Anzahl der Aufrufe des Musikvideos gibt kann nur ein langsameres Wachstum haben.

Meine Frage lautet also: Welche Art von Modell sollte ich verwenden, um die Anzahl der Zuschauer des Musikvideos vorherzusagen?

FredrikD
quelle
21
+1, um die Unterhaltung am Esstisch von Gangnam zu Statistiken zu lenken. Wir brauchen Leute wie Sie!
Stephan Kolassa
4
Was ich zu der Diskussion hinzufügen kann, von der ich hoffe, dass sie für Gui11aume oder andere nützlich ist, die Gleichungen schreiben, um dies zu modellieren, ist, dass im KONY-Beispiel die geografische Clusterbildung ein wesentlicher Aspekt der Virusausbreitung war. Die Tatsache, dass PSY zuerst ein koreanisches und dann ein asiatisches Phänomen ist, ist ein wichtiger Teil der Geschichte. Ich weiß nicht genau, wie das modelliert werden soll, aber es könnte ein Hinweis sein.
Daten zu Ansichten, Kommentaren, Vorlieben und Abneigungen des Videos im November 2012 finden Sie unter docs.google.com/spreadsheet/…
FredrikD,

Antworten:

38

Aha, ausgezeichnete Frage !!

Ich hätte auch naiv eine S-förmige logistische Kurve vorgeschlagen, aber dies ist offensichtlich eine schlechte Anpassung. Soweit mir bekannt ist, ist die ständige Zunahme ein Näherungswert, da YouTube die eindeutigen Ansichten zählt (eine pro IP-Adresse), sodass es nicht mehr Ansichten als Computer geben kann.

Wir könnten ein epidemiologisches Modell verwenden, bei dem die Anfälligkeit der Menschen unterschiedlich ist. Um es einfach zu machen, könnten wir es in die Hochrisikogruppe (sagen wir die Kinder) und die Niedrigrisikogruppe (sagen wir die Erwachsenen) einteilen. Nennen wir den Anteil "infizierter" Kinder und den Anteil "infizierter" Erwachsener zum Zeitpunkt . Ich werde die (unbekannte) Anzahl von Personen in der Hochrisikogruppe und die (ebenfalls unbekannte) Anzahl von Personen in der Niedrigrisikogruppe nennen.x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

wo . Ich weiß nicht, wie ich dieses System lösen soll (vielleicht würde @EpiGrad es tun), aber wenn wir uns Ihre Grafiken ansehen, könnten wir ein paar vereinfachende Annahmen treffen. Da das Wachstum nicht gesättigt ist, können wir annehmen, dass sehr groß und klein ist, oderr1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

Dies sagt ein lineares Wachstum voraus, sobald die Hochrisikogruppe vollständig infiziert ist. Beachten Sie, dass es bei diesem Modell keinen Grund gibt, anzunehmen , ganz im Gegenteil, da der große Term jetzt in subsumiert wird .r1>r2Yy(t)r2

Dieses System löst auf

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

Dabei sind und Integrationskonstanten. Die gesamte "infizierte" Population ist dann , die 3 Parameter und 2 Integrationskonstanten hat (Anfangsbedingungen). Ich weiß nicht, wie einfach es wäre zu passen ...C1C2x(t)+y(t)

Update: Beim mit den Parametern konnte ich die Form der oberen Kurve mit diesem Modell nicht reproduzieren, der Übergang von auf ist immer schärfer als oben. Wenn wir mit der gleichen Idee fortfahren, könnten wir wieder annehmen, dass es zwei Arten von Internetnutzern gibt: die "Teiler" und die "Einzelgänger" . Die Sharer infizieren sich gegenseitig, die Einzelgänger stoßen zufällig auf das Video. Das Modell ist0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

und löst auf

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

Wir könnten annehmen, dass , dh dass zum nur Patient 0 ist , was ergibt, weil ist eine große Anzahl. daher können wir annehmen, dass . Jetzt bestimmen nur die 3 Parameter , und die Dynamik.x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

Selbst bei diesem Modell scheint die Beugung sehr scharf zu sein, es ist keine gute Passform, daher muss das Modell falsch sein. Das macht das Problem eigentlich sehr interessant. Die folgende Abbildung wurde als Beispiel mit , und .X=600,000,000r1=3.6671010r2=1,000,000

Wachstumsmodell des Gangnam-Stils

Update: Aus den Kommentaren ging hervor, dass Youtube (auf geheime Weise) Aufrufe und keine eindeutigen IPs zählt, was einen großen Unterschied macht. Zurück zum Zeichenbrett.

Um es einfach zu halten, nehmen wir an, dass die Zuschauer durch das Video "infiziert" sind. Sie schauen sich das regelmäßig an, bis die Infektion beseitigt ist. Eines der einfachsten Modelle ist das SIR (Susceptible-Infected-Resistant):

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

αβx(t)x˙(t)=kI(t)k

In diesem Modell steigt die Anzahl der Aufrufe einige Zeit nach dem Ausbruch der Infektion abrupt an, was in den Originaldaten nicht der Fall ist, möglicherweise, weil sich Videos auch auf nicht virale (oder meme) Weise verbreiten. Ich bin kein Experte für die Schätzung der Parameter des SIR-Modells. Ich spiele nur mit verschiedenen Werten. Hier ist, was ich mir ausgedacht habe (in R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Hochrechnung der Ansichten des Youtube-Videos im Gangnam-Stil

Das Modell ist offensichtlich nicht perfekt und könnte auf viele solide Arten ergänzt werden. Diese sehr grobe Skizze sagt ungefähr im März 2013 eine Milliarde Aufrufe voraus, mal sehen ...

gui11aume
quelle
5
(+1) Als erster Ansatz. Beachten Sie, dass die Richtlinien von YouTube zum Zählen von Ansichten nicht gut verstanden werden, da sie ihren Algorithmus nicht veröffentlicht haben. Sie sagen nur: "Eine Ansicht wird gezählt, wenn sich jemand ein Video auf YouTube ansieht. Wir werden nicht genauer darauf eingehen, um Versuche zu vermeiden, die Anzahl der Ansichten künstlich zu erhöhen" (siehe) .
3
@FredrikD danke. Sie können das Akzeptieren im März 2013 immer noch entfernen, wenn ich es falsch verstanden habe: D
gui11aume 29.10.12
2
Parameterschätzung des SIR-Modells, siehe rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD,
1
Es scheint, dass ich diesen verlieren werde! Sie können die Million sogar vor 2013
schlagen
2
engadget.com/2012/12/21/gangnam-style-one-billion-views Die Welt ist also nicht untergegangen, aber heute wurden 1 Milliarde Aufrufe erzielt .
DanTheMan
5

Das wahrscheinlich gebräuchlichste Modell für die Vorhersage der Einführung neuer Produkte ist das Bass-Diffusionsmodell , das - ähnlich wie die Antwort von @ gui11aume - die Interaktionen zwischen aktuellen und potenziellen Benutzern modelliert. Die Einführung neuer Produkte ist ein ziemlich heißes Thema in der Prognose. Die Suche nach diesem Begriff sollte Unmengen von Informationen liefern (für die ich hier leider keine Zeit habe, näher darauf einzugehen ...).

Stephan Kolassa
quelle
ja, das ist auch ein kandidatenmodell. Es wird jedoch davon ausgegangen, dass Sie nur einmal Benutzer sein können. Hier sehen Sie das Video einige Male, wenn Sie "infiziert" sind.
FredrikD
1
@FredrikD: Punkt genommen. (Obwohl ich es persönlich nicht geschafft habe, eine einzige "Verwendung" dieses "Produkts" durchzustehen ...) Es sollte Verallgemeinerungen von Bass geben, um damit umzugehen. (Shameless Plug :) Das Internationale Symposium für Prognosen findet im nächsten Jahr in Seoul statt. Daher sollte jeder in Betracht ziehen, sein Lieblings-Gangnam-Prognosemodell dort vorzustellen! ;-)
Stephan Kolassa
4

Ich würde mir die Gompertz-Wachstumskurve ansehen .

Die Gompertz-Kurve ist eine 3-Parameter (a, b, c) -Doppelexponentialformel mit der Zeit T als unabhängige Variable.

R-Code:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Es ist bekannt, dass die Gompertz-Wachstumsformel viele Lebenszyklusphänomene beschreibt, bei denen sich das Wachstum zunächst beschleunigt und sich dann verjüngt, was zu einer asymmetrischen Sigmoidkurve führt, deren Ableitung links steiler ist als rechts vom Peak. Beispielsweise folgt die Gesamtzahl der Artikel auf Wikipedia, die ebenfalls viraler Natur sind, seit vielen Jahren mit großer Genauigkeit einer Gompertz-Wachstumskurve (mit bestimmten a, b, c-Parametern).

Diagramm der Gompertz-Kurven: Gesamtgröße und Ableitung der Wachstumsrate

Bearbeiten: Wenn die Gompertz-Kurve nicht ausreicht, um die gesuchte Form zu approximieren, können Sie Parameter d& θ hinzufügen, wie in Die Exponentaited Generalized Weibull Gompertz Distribution beschrieben . Beachten Sie, dass dieses Papier xanstelle des tunabhängigen Zeitparameters verwendet. Interessanterweise änderte Wikipedia auch ihre beste Annäherung, indem es einen einzelnen vierten Parameter hinzufügte d, um eine Abweichung der Vorhersage vom tatsächlichen Wert nach 2012 zu berücksichtigen . Die modifizierte 4-Parameter-Gompertz-Kurvenformel lautet:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Die Gompertz-Funktion ist nach Benjamin Gompertz (1779-1865) benannt , einem Gauß-Zeitgenossen (nur 2 Jahre jünger als Gauß), dem ersten Mathematiker, der sie beschreibt.

Arielf
quelle
Guter Punkt! Was das Modell jedoch herausfordert, ist, dass es anscheinend kein Limit darstellt (siehe Nr. 1 und Nr. 2). Das heißt, der Faktor a im Modell steigt mit der Zeit ebenfalls an.
FredrikD
Ich würde die "Es scheint keine Grenze zu geben." Kann der Gangnam-Stil 1B erreichen? 10B? 100B? Ansichten? irgendwann nähert sich die Wachstumsrate Null und die Kurve bildet ein Plateau. Dies ist schwer zu erkennen, wenn Sie sich in der Phase mit hohem Wachstum befinden, wie wir es jetzt bei Gangnam tun, aber warten Sie ein paar Jahre und Sie werden Gompertz gewinnen :) Der Trick besteht natürlich darin, das Richtige herauszufinden (a, b, c) Parameter für diesen speziellen Fall.
Arielf
2
Hier finden Sie eine Referenz zur Schätzung der Parameter des Gompertz-Modells (siehe weibull.com/RelGrowthWeb/…
FredrikD,
3

Ich denke, man muss Phänomene wie den Gangnam-Stil von Justin Bieber und Eminem trennen, die selbst große Künstler sind und sich auch in einem traditionellen Umfeld weit verbreiten würden. JB oder Eminem würden auch viele Singles verkaufen, ich bin mir nicht sicher, ob PSY das tun würde.

abaumann
quelle
guter Punkt. Nachdem sie Interviews von PSY und dem Team hinter "OGS" (Oppa Gangnam Style) gelesen und angehört haben, ist klar, dass sie genau wissen, auf welchen Knopf sie drücken müssen, um eine virale Sache zu erstellen. Durch eine Bildanalyse der obigen Ansichten scheint es, dass die Anzahl der Ansichten bis etwa 90 Tage nach dem Start linear ist, dann erscheint PSY beim Großen Preis von Korea und die Anzahl der Ansichten pro Zeiteinheit steigt.
FredrikD
- und wie unterscheiden sich diese beiden Klassen von "Klassikern" - Songs, die vermutlich bekannt waren, als sie zum ersten Mal auf YouTube hochgeladen wurden (ich denke, David Bowie)?
abaumann
2

Okay Leute, wir brauchen ein paar stilisierte Fakten zur Verbreitung von YouTube-Videos, die Muster nahe legen, die sich von der üblichen Literatur zur Verbreitung von Produkten unterscheiden. Ein guter Anfang ist Meeyoung Cha, Haewoon Kwak, Pablo Rodriguez, Yong-Yeol Ahn und Sue Moon, 2007 Konferenz über Internetmessung, ISBN: 978-1-59593-908-1.

und

X Cheng, C Dale, J Liu, 2008, Statistik und soziales Netzwerk von Youtube-Videos, im Verfahren des Internationalen Workshops zur Dienstgüte (IWQoS), Enschede, Niederlande, Juni.

ProfRoy47
quelle
5
Willkommen auf der Site, @ ProfRoy47. Würde es Ihnen etwas ausmachen, auf diesen Beitrag einzugehen? Es ist nicht klar, ob dies tatsächlich eine Antwort auf die Frage des OP ist oder ob es für sich allein steht. OTOH, es würde nicht als Kommentar passen, und ich denke, es hat das Zeug zu einem hilfreichen Beitrag zu diesem Thread. Unsere FAQ hat einige Diskussion Re bietet Antworten auf CV, die Ihnen nützlich sein können.
gung
1

Das Modell ist offensichtlich nicht perfekt und könnte auf viele solide Arten ergänzt werden. Diese sehr grobe Skizze sagt ungefähr im März 2013 eine Milliarde Aufrufe voraus, mal sehen ...

Angesichts der Abschwächung der Aussichten in der vergangenen Woche sieht das Datum des 13. März wie eine anständige Wette aus. Die Mehrheit der neuen Ansichten scheinen bereits infizierte Benutzer zu sein, die mehrmals pro Tag zurückkehren.

In Bezug auf die Ergänzung Ihres Modells besteht eine Methode, mit der Forscher die Ausbreitung eines Virus verfolgen, darin, seine Genommutationen zu überwachen. Wann und wo er mutiert ist, zeigt Forschern, wie schnell ein Virus übertragen und verbreitet wird (siehe Nachverfolgung des West-Nil-Virus in den USA). .

In praktischer Hinsicht mutieren Videos wie Gangnam Style und Party Rock Anthem (von der Gruppe LMFAO) eher zu Parodien, Flashmobs, Hochzeitstänzen, Remixen und anderen Videoantworten, als etwa Justin Biebers Baby- oder Eminems Songs.

Die Forscher konnten die Anzahl der Videoantworten (und insbesondere der Parodien) als Proxy für Mutationen analysieren. Das Messen der Häufigkeit und Beliebtheit dieser Mutationen in einem frühen Stadium des Videos könnte hilfreich sein, wenn Sie die YouTube-Aufrufe für die gesamte Lebensdauer modellieren.

lucasng
quelle
Willkommen auf der Seite, @lucasng. CV ist für ernsthafte, sachliche Antworten auf inhaltliche Fragen soll (Sie können unsere lesen FAQ ) & Ich denke , die OP w / Vor diesem Hintergrund gefragt. Ihre Antwort ist hier an der Grenze. Ich denke, es sollte auf seinen Vorstellungen über Mutationen usw. basieren, aber man beachte, dass die Meinungen über die Vorzüge der Videos nicht wirklich wichtig sind.
gung
Ich finde die Idee gut. @gung Stimmt, dass es keine Antwort auf das OP ist, aber die zweite Antwort auch nicht.
gui11aume
@gung: (Eine Google-Suche deutet darauf hin) lucasng hat in dem Teil, den Sie redigiert haben, keine Meinung geäußert, sondern nur den Namen der Gruppe genannt, die das Lied aufführt!
Kardinal
1
@ Kardinal, danke für die Köpfe nach oben. Lucasng, entschuldige die Verwirrung; Ich habe den Gruppennamen zurückgesetzt.
gung