Wie hat Google es geschafft, meine 403 Seiten zu crawlen?

Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben.

Und doch hat Google es irgendwie geschafft, den Inhalt dieser privaten Dateien abzurufen und in seinem Cache zu speichern! Wie ist das möglich? [Ich habe diese Dateien inzwischen entfernt, daher bin ich nur gespannt, wie Google dies geschafft hat.]

web-crawlers security googlebot grautur
quelle

Dies gehört auf Webmasters

RobertPitt

Antworten:

Der wahrscheinlichste Grund ist, dass die Seiten keinen 403-Header zurückgeben.

Sie können dies mithilfe der Webentwickler-Symbolleiste in Firefox oder Chrome überprüfen. Das Tool befindet sich unter "Information" -> "Antwortheader anzeigen".

Außerdem erstelle ich meine Fehlerseiten wie folgt:

Ich erstelle eine Dummy-Fehlerseite. Sagen wir 403.php .
Ich erstelle eine aktuelle Fehlerseite. Zum Beispiel error403.php .
Auf der Dummy-Fehlerseite habe ich den folgenden Code eingefügt: <?php header("Location: /error403.php",TRUE,301); ?>
In meinen .htaccess habe ich Folgendes eingefügt:

Options -Indexes

ErrorDocument 403 /403.php

Dies fügt alle Weiterleitungen auf die richtige Weise hinzu und stellt sicher, dass ich etwas Saft von meinen Fehlerseiten bekomme.

Dies kann auf äußerst coole Weise erweitert werden, wenn Ihre Website über eine Suchmaschine verfügt, die GET-Anforderungen verwendet.

Vergil Penkov
quelle