Ich hatte ein paar private Dateien in einem Verzeichnis in meinem Schulordner. Sie können sehen, dass die Dateien vorhanden sind, indem Sie zu myschool.edu/myusername/myfolder gehen. Wenn Sie jedoch versuchen, über myschool.edu/myusername/myfolder/myfile.html auf die Dateien selbst zuzugreifen, wird ein 403-Fehler zurückgegeben.
Und doch hat Google es irgendwie geschafft, den Inhalt dieser privaten Dateien abzurufen und in seinem Cache zu speichern! Wie ist das möglich? [Ich habe diese Dateien inzwischen entfernt, daher bin ich nur gespannt, wie Google dies geschafft hat.]
web-crawlers
security
googlebot
grautur
quelle
quelle
Antworten:
Der wahrscheinlichste Grund ist, dass die Seiten keinen 403-Header zurückgeben.
Sie können dies mithilfe der Webentwickler-Symbolleiste in Firefox oder Chrome überprüfen. Das Tool befindet sich unter "Information" -> "Antwortheader anzeigen".
Außerdem erstelle ich meine Fehlerseiten wie folgt:
<?php header("Location: /error403.php",TRUE,301); ?>
In meinen .htaccess habe ich Folgendes eingefügt:
Options -Indexes
ErrorDocument 403 /403.php
Dies fügt alle Weiterleitungen auf die richtige Weise hinzu und stellt sicher, dass ich etwas Saft von meinen Fehlerseiten bekomme.
Dies kann auf äußerst coole Weise erweitert werden, wenn Ihre Website über eine Suchmaschine verfügt, die GET-Anforderungen verwendet.
quelle