Hier ist eine aktuelle Google-Korrelatabfrage:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#
Wie Sie im Suchfeld unter diesem Link sehen können, habe ich "Internetnutzung" eingegeben und Google hat den Rest erledigt. Es zeigt einen Wert von 0,9298 als "Korrelation" mit der Abfrage "Data Mining". Wenn ich jedoch Seite 2 des Google-Whitepapers [PDF] lese , heißt es:
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
Meine Frage lautet also:
Verwendet Google eine normale Pearson- oder Spearman-Korrelation, um dieses Zeug zu finden, oder verwenden sie etwas anderes? Wenn ja, können Sie die allgemeine Technik erklären?
==================
Beachten Sie in der Handlung auch, dass die Suche nach "Internetnutzung" (und "Data Mining") während der Sommermonate abnimmt und wirklich um Weihnachten herum taucht. Ich würde vermuten, dass Kinder und ihre Hausaufgaben etwas damit zu tun haben.
quelle
Antworten:
Wie in chl erwähnt, wird im Google Correlate-Lernprogramm angegeben , dass Google Correlate den Produkt-Moment-Korrelationskoeffizienten von Pearson verwendet .
Sie erwähnen nicht, in welcher Sprache dies implementiert ist, obwohl Google R für einige Anwendungen verwendet, also würde ich das erraten.
quelle