Ich habe einen Link zum PDF-Dokument auf einer öffentlichen Webseite. Wie verhindere ich, dass Suchmaschinen diesen Link und dieses PDF-Dokument indizieren?
Die einzige Idee, an die ich dachte, ist die Verwendung von CAPTCHA. Ich frage mich jedoch, ob es magische Wörter gibt, die eine Suchmaschine anweisen, den Link und das PDF-Dokument nicht zu indizieren. Optionen mit PHP oder JavaScript sind ebenfalls in Ordnung.
Nur um es klar zu machen. Ich möchte PDF nicht verschlüsseln und mit einem Passwort schützen. Ich möchte es nur für Suchmaschinen unsichtbar machen, aber nicht für Benutzer.
Files
Direktive verwenden, sollten SieFilesMatch
stattdessen die hier vorgeschlagene verwenden. Stackoverflow.com/q/14792381/1262357Es gibt mehrere Möglichkeiten, dies zu tun (das Kombinieren ist offensichtlich ein sicherer Weg, dies zu erreichen):
1) Verwenden Sie robots.txt , um die Dateien von Suchmaschinen-Crawlern zu blockieren:
2) Verwenden Sie
rel="nofollow"
auf Links zu diesen PDFs3) Verwenden Sie den
x-robots-tag: noindex
HTTP-Header, um zu verhindern, dass Crawler sie indizieren. Fügen Sie diesen Code in Ihre .htaccess- Datei ein:quelle
x-robots-tag
undrobots.txt
ist zugleich nicht eine gute Idee , und dazu führt , kann der Inhalt sowieso indiziert werden. Wenn Sie beidesrobots.txt
und verwendenx-robots-tag: noindex
, wird der Crawler niemals crawlen oder das sehen,x-robots-tag
weil er das zuerst beachtetrobots.txt
.robots.txt
verhindert nicht, dass Ressourcen indiziert, sondern nur gecrawlt werden. Daher ist es die beste Lösung, denx-robots-tag
Header zu verwenden und den Suchmaschinen das Crawlen und Auffinden des Headers zu ermöglichen, indem Sie ihn inrobots.txt
Ruhe lassen.Sie können die robots.txt- Datei verwenden. Sie können hier mehr lesen .
quelle
Wir sind uns nicht sicher, ob diese Schwelle für irgendjemanden von Nutzen sein könnte, haben aber kürzlich ein Problem festgestellt, dass unsere GSA-Box vor Ort keine PDF-Dateien indizieren kann.
Der Google-Support hat mit dem Problem gearbeitet, und die Antwort lautet, dass es damit zusammenhängt, dass für dieses PDF-Dokument eine benutzerdefinierte Eigenschaft festgelegt wurde (Datei -> Dokumenteigenschaften -> Benutzerdefiniert (Registerkarte)).
was verhinderte, dass es von der GSA ordnungsgemäß indiziert wurde.
Wenn Sie Zugriff auf das Dokument haben und dessen Eigenschaften ändern können, funktioniert dies möglicherweise ... zumindest für GSA.
quelle
Wenn nginx-basierte Entwicklungsinstanzen in den Google-Suchergebnissen angezeigt werden, können Sie auf schnelle und einfache Weise verhindern, dass Suchmaschinen Ihre Website crawlen. Fügen Sie die folgende Zeile zum Speicherortblock Ihrer virtualhost-Konfigurationsdatei für den Block hinzu, den Sie vor dem Crawlen schützen möchten.
quelle
Sie können eine robots.txt-Datei verwenden. Suchmaschinen, die diese Datei berücksichtigen, indizieren die PDF- Datei nicht . Verwenden Sie einfach den Befehl, um die Indizierung einer Datei zu deaktivieren, und legen Sie fest, welchen Ordner oder welche PDF-Datei die Suchmaschinen nicht indizieren sollen.
quelle