Kontext
Eine beliebte Frage auf dieser Website lautet " Was sind häufige statistische Sünden? ". Eine der genannten Sünden ist die Annahme, dass "Korrelation Kausalität impliziert ..." ein Zusammenhang ist
In den Kommentaren mit 5 positiven Stimmen heißt es dann: "Google verdient 65 Milliarden Dollar pro Jahr, ohne sich um den Unterschied zu kümmern."
Ich war der Meinung, dass dies ein nützlicher Diskussionspunkt sein könnte, um die Unterscheidung zwischen Korrelation und Kausalität und die praktische Relevanz der Unterscheidung zu verdeutlichen. und vielleicht könnte es etwas über die Beziehung zwischen maschinellem Lernen und der Unterscheidung zwischen Korrelation und Kausalität hervorheben.
Ich gehe davon aus, dass sich der Kommentar auf Technologien bezieht, die der Generierung von Suchmaschinenergebnissen und Technologien zur Anzeige von Werbung zugrunde liegen.
Frage
- Inwieweit ist die Unterscheidung zwischen Korrelation und Kausalität für die Einkommensgenerierung von Google relevant, wobei der Schwerpunkt möglicherweise auf der Einkommensgenerierung durch Technologien zur Anzeige von Werbung und hochwertigen Suchergebnissen liegt?
quelle
Antworten:
Die einfache Antwort lautet, dass sich Google (oder jeder andere) für die Unterscheidung interessieren sollte, sofern er beabsichtigt, einzugreifen . Kausales Wissen informiert Sie über die Auswirkungen von Interventionen (Aktionen) in einem bestimmten Bereich.
Wenn Google beispielsweise die Klickraten für Anzeigen erhöhen, die Anzahl der Nutzer von GMail oder Google+ erhöhen oder Nutzer dazu veranlassen möchte, Google anstelle von Bing zu verwenden, müssen sie die Auswirkungen potenzieller Aktionen kennen (z. B. Erhöhung der Klickraten) die Schriftgröße von Anzeigen, die Werbung für Google+ in Printmagazinen oder die Veröffentlichung von Unterschieden zwischen den Google- und Bing-Suchergebnissen. Die Korrelation ist gut genug, damit Googles Suchmaschine gut funktioniert, aber für ihre anderen Systeme (und ihr Geschäft insgesamt) ist die Unterscheidung oft von Bedeutung.
Es ist erwähnenswert, dass Google (und viele Unternehmen mit webbasierten Unternehmen) ständig Online-Experimente durchführen. Dies ist die einfachste und beste Möglichkeit, kausale Abhängigkeiten zu identifizieren und abzuschätzen.
quelle
Erstens ist es nur ein Witz und falsch. Google hat viele sehr talentierte Statistiker, Experten für Informationsbeschaffung, Linguisten, Ökonomen, einige Psychologen und andere. Diese Leute verbringen viel Zeit damit, Nicht-Statistiker über den Unterschied zwischen Korrelation und Kausalität aufzuklären. Angesichts der Tatsache, dass es sich um eine große Organisation handelt, kann es Taschen oder sogar große Taschen von Unwissenheit geben, aber die Behauptung ist definitiv falsch. Darüber hinaus steht ein Großteil dieser Ausbildung Kunden, insbesondere Werbetreibenden, gegenüber.
Tiefere Antwort: Der Unterschied ist extrem wichtig. Schauen Sie sich einfach das Ranking der Suchergebnisse an und lassen Sie mich über die "Korrelation" hinausgehen, um Ähnlichkeitsmaße, Bewertungsfunktionen usw. einzuschließen. Einige Seiten werden als gute Ergebnisse für bestimmte Suchanfragen bewertet. Diese haben eine Vielzahl von Prädiktorfunktionen, die für ihr Ranking wichtig sind. Im Gegensatz zu diesen guten Seiten, die gute Ergebnisse für Abfragen darstellen, handelt es sich bei einer Gruppe von Webseiten um Seiten, die für dieselben Abfragen sehr schlechte Ergebnisse aufweisen. Die Ersteller dieser Seiten geben sich jedoch viel Mühe, damit sie aus numerischer Sicht wie gute Seiten aussehen, wie z. B. Textübereinstimmungen, Internetverknüpfungen und mehr. Nur weil diese Seiten numerisch "ähnlich" zu guten Seiten sind, bedeutet dies nicht, dass es sich tatsächlich um gute Seiten handelt. Aus diesem Grund hat Google viel investiert und wird auch weiterhin große Anstrengungen unternehmen, um festzustellen, welche vernünftigen Funktionen gute und schlechte Seiten voneinander unterscheiden.
Dies ist keine wirkliche Korrelation und Kausalität, aber es ist tiefer als das. Gute Seiten für bestimmte Abfragen werden möglicherweise in einen numerischen Bereich abgebildet, in dem sie ähnlich und von vielen irrelevanten oder schlechten Seiten verschieden erscheinen. Dies bedeutet jedoch nicht, dass die Ergebnisse aus derselben Teilmenge "hoher Qualität" stammen, da sie sich im selben Bereich des Featurebereichs befinden des Webs.
Einfachere Antwort: Eine sehr einfache Perspektive besteht darin, sich mit der Rangfolge der Ergebnisse zu befassen. Das beste Ergebnis sollte zuerst sein, aber nur weil etwas an erster Stelle steht, heißt das noch lange nicht, dass es das beste Ergebnis ist. Anhand einiger Bewertungsmaßstäbe können Sie feststellen, dass das Ranking von Google mit einem goldenen Standard für Qualitätsbewertungen korreliert. Dies bedeutet jedoch nicht, dass das Ranking besagt, dass die Ergebnisse in Bezug auf Qualität und Relevanz wirklich in dieser Reihenfolge sind.
Update (dritte Antwort): Im Laufe der Zeit gibt es einen weiteren Aspekt, der uns alle betrifft: Das beste Google-Ergebnis kann als maßgeblich eingestuft werden, da es das beste Ergebnis bei Google ist. Obwohl die Linkanalyse (z. B. "PageRank" - eine Methode zur Linkanalyse) den Versuch darstellt, die wahrgenommene Autorität widerzuspiegeln, können mit der Zeit neue Seiten zu einem Thema diese Linkstruktur einfach durch Verlinken auf das Top-Ergebnis bei Google verstärken. Eine neuere Seite, die maßgeblicher ist, hat ein Problem mit dem Vorsprung im Vergleich zum ersten Ergebnis. Wie Google will die relevanteste Seite liefern derzeit eine Vielzahl von Faktoren, einschließlich einem sogenannten „Rich-get-reicher“ Phänomen, entsteht aufgrund einer impliziten Wirkung von Korrelation auf wahrgenommen Verursachung.
Update (vierte Antwort): Ich erkannte (für einen Kommentar unten), dass es nützlich sein könnte, Platons Allegorie der Höhle zu lesen, um ein Gefühl dafür zu bekommen, wie Korrelation und Kausalität als Ergebnis von "Reflexionen / Projektionen" der Realität und wie interpretiert werden wir (oder unsere maschinen) nehmen es wahr. Die Korrelation, die streng auf Pearsons Korrelation beschränkt ist, ist als Interpretation des Problems des Missverständnisses von Assoziation (weiter als nur Korrelation) und Kausalität viel zu begrenzt.
quelle
Autor des Witzes hier.
Der Kommentar wurde teilweise durch einen Vortrag von David Mease (bei Google) inspiriert, in dem er sagte, und ich paraphrasieren, Unternehmen Kfz - Versicherung egal , ob männlich sein Ursachen mehr Unfälle, solange sie korreliert ist, sie mehr in Rechnung stellen müssen. Tatsächlich ist es unmöglich, das Geschlecht einer Person in einem Experiment zu ändern, sodass die Ursache niemals aufgezeigt werden konnte.
Auf die gleiche Weise muss sich Google nicht wirklich darum kümmern, ob die Farbe Rot jemanden dazu bringt , auf eine Anzeige zu klicken. Wenn sie mit mehr Klicks korreliert, kann Google mehr für diese Anzeige verlangen.
Es wurde auch von diesem Artikel in Wired inspiriert: Das Ende der Theorie: Die Datenflut macht die wissenschaftliche Methode überflüssig . Ein Zitat:
"Die Gründungsphilosophie von Google lautet, dass wir nicht wissen, warum diese Seite besser ist als diese: Wenn die Statistiken eingehender Links dies bestätigen, ist das gut genug."
Offensichtlich hat Google viele sehr kluge Leute, die den Unterschied zwischen Kausalität und Korrelation kennen, aber in ihrem Fall können sie viel Geld verdienen, ohne sich darum zu kümmern.
quelle
Ich stimme David zu : Der Unterschied ist wichtig, wenn Sie eingreifen möchten, und Google kann die Ergebnisse von Eingriffen testen, indem es kontrollierte Experimente durchführt. (Der optimale Zeitplan für solche Experimente hängt von Ihren Kausalhypothesen ab, die Sie aus früheren Experimenten sowie Beobachtungsdaten gelernt haben. Korrelationen sind also immer noch nützlich!)
Es gibt einen zweiten Grund, warum Google möglicherweise Kausalzusammenhänge lernen möchte. Kausale Beziehungen sind robuster gegenüber Interventionen anderer Spieler. Interventionen sind in der Regel lokal, daher können sie einen Teil des Kausalnetzwerks verändern, alle anderen Kausalmechanismen jedoch unverändert lassen. Im Gegensatz dazu können prädiktive Beziehungen fehlschlagen, wenn ein entfernter Kausalzusammenhang unterbrochen wird. Das Internet ändert sich ständig, und Google sollte sich dafür interessieren, welche Funktionen der Online-Umgebung für diese Änderungen robuster sind.
quelle