Wenn ich eine statische Seite in einer Domain erstelle (http://www.domain.com/page.html), kann ein Crawler sie dann weiterhin sehen, wenn auf der Site keine Links dazu vorhanden sind?
web-crawlers
geteilt
quelle
quelle
Antworten:
Können sie es sehen? Ja. Können sie es finden? Nicht ohne Hilfe.
Webcrawler finden normalerweise Seiten, die gecrawlt werden sollen, indem sie auf anderen Seiten Links zu ihnen folgen. Einige Crawler (z. B. Suchmaschinen-Crawler) crawlen auch Seiten, die in speziellen XML-Dateien aufgeführt sind. Wenn auf Ihrer Website oder einer anderen Website kein Link zu einer Seite vorhanden ist, wird diese Seite nicht gecrawlt (Seiten, die die URL dieser Seite enthalten, aber im Klartext vorliegen , werden von Google gefunden ).
Sobald eine Seite gefunden und gecrawlt wurde, kann sie jedoch erneut gecrawlt werden, selbst wenn alle Links zu dieser Seite von ihren jeweiligen Websites entfernt wurden. Dies liegt daran, dass gecrawlte Seiten dann indiziert werden (z. B. zur Liste der zu crawlenden Seiten hinzugefügt werden), damit der Crawler sie zu einem späteren Zeitpunkt erneut crawlen kann, um nach Änderungen zu suchen. Wenn Sie dies verhindern möchten, können Sie einen der folgenden Schritte ausführen:
Am effektivsten
Weniger effektiv
quelle
Eine andere Möglichkeit, die Seite zu erkennen, besteht darin, dass Sie Links zu anderen Websites auf dieser Seite haben.
Die URL Ihrer Seite wird in ihren Referrer-Protokollen angezeigt. Eine gute Zeitspanne vieler Webmaster besteht darin, diese Protokolle kurz zu durchsuchen und zu sehen, was andere über ihre Seiten sagen.
Einige Websites bieten anscheinend Zugriff auf diese Protokolle ohne Zugriffsbeschränkung, sodass Crawler sie auch erreichen können ...
Um die Seite wirklich geheim zu halten, lassen Sie sie nicht auf externe Websites verlinken.
quelle