Wie findet Googlebot URLs, die nur für authentifizierte Benutzer sichtbar sind?

12

Hier ist einer meiner Kunden, der eine Aktion ausführt, nachdem er sich in seinem Konto angemeldet hat. Das eindeutige Token ist einfach eine verschlüsselte Benutzer-ID + Zeitstempel.

94.254.xxx.xxx - - [02 / Jul / 2011: 22: 25: 46 +0200] GET / some-action / unique-token-123abc HTTP / 1.1 200 410 - Mozilla / 5.0 (kompatibel; MSIE 9.0; Windows NT 6.1; Trident / 5.0)

Jetzt hat Googlebot diesen einzigartigen Link entdeckt und versucht, eine Woche später auf genau dieselbe URL zuzugreifen.

66.249.71.179 - - [10 / Jul / 2011: 09: 56: 01 +0200] GET / some-action / unique-token-123abc HTTP / 1.1 302 - - Mozilla / 5.0 (kompatibel; Googlebot / 2.1; + http: //www.google.com/bot.html) "

(Statuscode ist 302, da das Token abgelaufen ist)


Lassen Sie mich betonen, dass dies eine eindeutige URL ist, die nur 2 Sekunden lang genau einmal sichtbar war, bevor der Benutzer darauf klickte und diese Seite besuchte. Es wurde nicht in einer E-Mail verschickt oder irgendwo öffentlich veröffentlicht.

Was ist hier los, wie ist es möglich, dass Google diese eindeutige URL gefunden hat?

Martin
quelle

Antworten:

6

Es ist schwer zu sagen, aber hier sind wahrscheinliche Szenarien:

  • Der Nutzer hat eine Browser-Symbolleiste oder -Erweiterung installiert, die die von ihm besuchten URLs an Google meldet.

  • Jemand, der mit dieser URL verknüpft ist, und Google haben sie gefunden, indem sie die Seite mit diesem Link gecrawlt haben.

John Conde
quelle
Wenn Sie über die Google Toolbar sprechen, werden URLs nur an Google zurückgesendet, wenn Sie die Funktion "PageRank" aktivieren. Wir haben diese Daten jedoch nie zur Ermittlung neuer URLs verwendet. Wenn es sich um eine andere Symbolleiste handelt, die von uns veröffentlicht wurde, lassen Sie es mich bitte wissen.
Methode
5

Ich habe gerade festgestellt, dass der Benutzer einen ausgehenden Link auf dieser authentifizierten Seite gefunden haben muss und dann die private URL als "" durchgesickert hat Referer als ob er auf eine andere Website geklickt hätte. Dies ist die einzig mögliche Erklärung und sollte von Anfang an offensichtlich gewesen sein.

Nach dem Durchsickern wurde die private URL möglicherweise auf verschiedene Weise für Google bereitgestellt, z. B. hat die Zielsite ihre Zugriffsprotokolle möglicherweise öffentlich veröffentlicht. Hinweis: Keiner der ausgehenden Links verwendete Google Analytics. Dies bedeutet nicht, dass Googlebot Verweis-URLs von Analytics verwendet.

Lektion neu gelernt: Geben Sie niemals vertrauliche Daten in URLs ein, es sei denn, Sie verwenden https. In diesem Fall wäre der Browser Refererleer geblieben.

Martin
quelle
1
Sie haben Recht: Das Einfügen vertraulicher Daten in URLs kann gefährlich sein. Wann immer Sie können, sollten Sie eindeutige Benutzer-IDs zwischen Seiten mithilfe von POST-Anforderungen (die keine Variablen als Teil der URL senden, wie z. B. GET-Anforderungen) oder mit Cookie- / Sitzungsvariablen übergeben.
Nick