Robots.txt: Muss ich eine Seite verbieten, die nirgendwo verlinkt ist?

12

Es gibt einige Seiten auf meiner Website, die der Benutzer nur besuchen darf, wenn ich ihm die URL gebe.

Wenn ich die einzelnen Seiten nicht zulasse robots.txt, sind sie für jeden sichtbar, der sie untersucht.

Meine Frage ist: Wenn ich sie nicht von irgendwoher oder zumindest von irgendeiner indizierten Seite aus verlinke, würden sie dann trotzdem von Crawlern auf irgendeine Weise erreicht werden?

martjno
quelle

Antworten:

11

Sie möchten nicht, dass die Seite überhaupt in den SERPs angezeigt wird ...

In robots.txt nicht verbieten. Fügen Sie stattdessen ein Noindex-Meta-Tag (oder einen X-Robots-Tag-HTTP-Header) zu Ihren Seiten hinzu.

Wie von j0k vorgeschlagen, könnten Ihre Seiten irgendwie gefunden werden. Statistikberichte, Verzeichnislisten usw.

Das Deaktivieren von robots.txt verhindert, dass die Seite gecrawlt wird, kann jedoch weiterhin indiziert werden und in den SERPs als reiner URL-Link angezeigt werden. Etwas wie:

Nur URL-Link in Google SERPs

Ein No-Index-Meta-Tag verhindert, dass die Seite in den SERPs überhaupt angezeigt wird. Google muss jedoch in der Lage sein, die Seite zu crawlen, damit das No-Index-Meta-Tag angezeigt wird. Daher kann es in der Datei robots.txt nicht verboten werden.

Wenn sich auf der Seite etwas befindet, das nicht öffentlich verfügbar sein darf, müssen sich die Seiten hinter einer Art Authentifizierung befinden.

Herr weiß
quelle
Wenn dies wirklich vertraulich ist, ist es eine schlechte Praxis, es mit einer URL zu "verstecken", unabhängig von der gewählten Methode. In einem solchen Fall ist es sehr wichtig, die richtige Authentifizierung zu verwenden.
John Mueller
1
Außerdem rufen Schaltflächen für soziale Medien (Like / Share / + 1 / verschiedene Lesezeichen) den Inhalt ab und zeigen möglicherweise URL, Titel und Snippet öffentlich an, auch wenn die URL keinen Index enthält (oder von Robotern nicht zugelassen wird) .TXT). Die einzige Möglichkeit, dies zu verhindern, ist die Verwendung der Authentifizierung.
John Mueller
2

Nun, ich denke, Sie haben einen guten Crawler, der die robots.txt liest und der Direktive folgt. Und andere, die der Richtlinie nicht folgen.

Und wie wollen Sie diese URL weitergeben? Per E-Mail, über Facebook oder Twitter? Alle diese Dienste crawlen die von Ihnen gesendeten Informationen. Google Mail analysiert E-Mails, die Sie zum Bereitstellen von Anzeigen erhalten. Deine URL wird also irgendwie gecrawlt.

Einige Benutzer verwenden die Google Toolbar (oder eine andere Symbolleiste aus der Suchmaschine). Es gibt eine Option (standardmäßig aktiviert, wenn ich mich recht erinnere), mit der die Symbolleiste alle von Ihnen besuchten URLs an Google senden kann. Dies ist eine andere Möglichkeit für Google, das verborgene Web anzuzeigen. Selbst wenn Sie der Person gesagt haben, dass sie die URL nicht teilen soll, wird sie dies implizit tun (dank der Symbolleiste).

Ich denke, wir können viele andere Möglichkeiten finden.

Sie können es also zu robots.txt hinzufügen, aber auch zusätzliche Metas wie noindex, nofollow usw. bereitstellen.

bearbeiten:

Der Vorschlag von w3d zu robots.txt scheint mir gut zu sein. Fügen Sie es also nicht zu robots.txt hinzu und geben Sie das richtige Meta-Tag an.

j0k
quelle
Ich verlinke sie per E-Mail. Ja, ich hatte vor, richtige Meta bereitzustellen. Also ist Ihr Vorschlag, sie zu Robotern hinzuzufügen oder nicht? Vielen Dank
Martjno
Ich würde empfehlen, es zu robots.txt hinzuzufügen. Aber der Vorschlag von w3d hat meine Meinung geändert. Fügen Sie es nicht hinzu, sondern geben Sie das richtige Meta-Tag an.
4.
0

Zusätzlich zu den obigen Kommentaren würde ich mindestens die HTACCESS-Authentifizierung empfehlen. Auf diese Weise können Sie Einzelpersonen eine Kombination aus Benutzername und Passwort für die Dauer ihrer Berechtigung zum Anzeigen der Seite (n) zuweisen.

Wenn Datenschutzprobleme auftreten, müssen Sie ein geeignetes Anmeldesteuerungsskript in Betracht ziehen.

Eine ungeschützte Seite (egal wie gut sie versteckt sein mag) wird es in die Wildnis schaffen.

Andrew
quelle