Befolgen Google Preview Robots.txt?

Weil es sicher so aussieht. Für meine Websites ist das Bilderverzeichnis nicht zulässig, und in den Voransichten fehlen alle Bilder, wodurch die Website wackelig aussieht.

Ist dies der Fall und gibt es eine Möglichkeit, nur dem Vorschau-Bot den Zugriff auf Bilder mit robots.txt zu ermöglichen?

BEARBEITEN: Es sieht so aus, als würden die Vorschauen sowohl vom normalen Google Bot als auch von einem On-the-Fly-Bot der Google Web Preview generiert, wie (kurz) im Webmaster Central Blog erwähnt .

Durch die Verwendung einer Site: search und meiner Überwachungssoftware konnte ich sehen, wann der Bot auf meine Site traf und wann dies geschah. Die Bilder wurden in der Vorschau einwandfrei angezeigt. Ich vermute also, dass der normale Crawler die Bilder per robots.txt ignoriert, aber der Vorschau-Crawler die Bilder trotzdem erhält.

Diese Implementierung scheint etwas mürrisch zu sein, weil meine Optionen zu sein scheinen:

Erlaube Google Bot, meine Bilder zu crawlen (was ich nicht tun möchte)
Verwenden Sie das Nosnippet-Tag, das die Vorschau blockiert, aber AUCH Snippets (was ich nicht tun möchte).
Lassen Sie die wackeligen Vorschauen erscheinen, die sich nachteilig auf die Klickraten auswirken können

google robots.txt plntxt
quelle

Wenn es nur darum geht, dass die Bilder nicht indiziert werden, können Sie das Crawlen zulassen, aber die Bilder mit einem HTTP-Header mit x-robots-Tag und "noindex" bereitstellen.

John Mueller

@ John Mueller Das sieht so aus, als wäre es die Antwort. Warum nicht im Antwortbereich posten?

plntxt

Antworten:

Ich denke, John Mueller hatte es richtig in den Kommentaren.

Wenn es nur darum geht, dass die Bilder nicht indiziert werden, können Sie das Crawlen zulassen, aber die Bilder mit einem HTTP-Header mit x-robots-Tag und "noindex" bereitstellen.

Ich wusste nicht, dass Sie Google erlauben können, Inhalte ohne Indizierung zu crawlen. Ich habe seine Technik eingeführt und warte nur darauf, gekrochen zu werden, um zu sehen, ob es funktioniert.

Ich werde dies in ein paar Tagen als Antwort akzeptieren, es sei denn, John möchte seine Kommentare zum Antwortbereich hinzufügen, damit er sich den Repräsentanten verdienen kann.

plntxt
quelle

Entschuldigung für die Kommentar-Antwort :). Eine Sache zu beachten ist, dass dieser Prozess im Moment nicht wirklich so schnell ist. Das Ändern des Indizierungsstatus von Bildern ist im Allgemeinen langsamer als die Websuche, und das Aktualisieren von Vorschaubildern kann auch viel länger dauern als das Aktualisieren des normalen Web-Suchinhalts (zwischengespeicherte Seite, Titel, Snippet). In der Praxis stelle ich mir vor, dass dies in der Größenordnung von Wochen dauern wird, bis Sie Änderungen sehen - seien Sie also geduldig :).

John Mueller

Geduld ist der Schlüssel. Einige Wochen nach der Änderung sind einige Bilder jetzt sichtbar, während sie noch fehlen. Dies scheint jedoch die Lösung für mein Problem gewesen zu sein.

plntxt

Da der größte Teil der Vorschau vom Google Bot-Crawler ausgeführt wird, wirkt sich das Blockieren des Crawls eines Teils Ihrer Website auf die Vorschau aus ...

Warum möchten Sie Google Bot nicht erlauben, Ihre Bilder zu crawlen?

Pascal Qyy
quelle

Wir investieren viel Zeit und Geld in die Produktfotografie und möchten unsere Bilder lieber aus der Bildsuche heraushalten, da Personen, die die Bildsuche verwenden, normalerweise nach einem Bild suchen und kein Produkt kaufen möchten. Wenn unsere Bilder im Index wären, würde es den Wettbewerbern leichter fallen, sie zu stehlen.

plntxt

Sie können versuchen, Ihre Bilder und / oder Steganografie mit einem Copyright zu versehen und / oder die Anzeige durch Überweisung zu filtern ...

Pascal Qyy

@G. Qyy Oder ich könnte unendlich viele Affen bezahlen, um das Web nach urheberrechtlich geschützten Bildern zu durchsuchen.

Plntxt

@ Jim: Oder Sie können Ihre Bilder kostbar auf Papier halten und sie niemals ins Internet stellen ... ^^

Pascal Qyy

Guter Punkt - nichts kann Ihre Bilder vollständig schützen, aber ich würde es wirklich vorziehen, sie nicht im Google-Index zu haben. Ich bin kein Fan von Wasserzeichen, und der kostengünstigste Weg, unsere Bilder an anderer Stelle zu reduzieren, besteht darin, sie aus dem Index herauszuhalten.

plntxt

Das Folgende ist eine technische Lösung, die möglicherweise einfach auf Ihre Website angewendet werden kann oder nicht.

Es ist möglich (sogar wahrscheinlich), dass Google einen Weg findet, dies mit nur wenigen Hinweisen in Metadaten oder robots.txt zu tun, aber bis dahin ...

Schritt 1.

Erstellen Sie einen Umleitungsdienst / ein Servlet für Titelbilder.

Dh eine URL wie

/frontpageimages/[image name]

das führt eine serverseitige Umleitung zu

/images/[image name]

Schritt 2.

Lassen Sie alle Bildlinks auf Ihrer Startseite (und nur auf der Startseite) neu schreiben, um den Umleitungsdienst ab Schritt 1 zu durchlaufen, anstatt direkt auf das Bild zu verlinken.

Schritt 3.

Stellen Sie sicher, dass mit robots.txt Googlebot crawlen kann /frontpageimages/

Dies sollte sicherstellen, dass Google alle Bilder, auf die es auf Ihrer Startseite stößt, crawlen kann, während Bilder auf anderen Seiten in Ruhe gelassen werden.

Während der Umleitungsdienst (theoretisch) verwendet werden könnte, um alle Ihre Bilder zu crawlen, ohne Ihre robots.txt technisch zu verletzen, ist dies nicht etwas, was gut erzogene Roboter (wie Googlebot) tun werden. Und schlecht benommene Roboter werden sich keine Sorgen um robots.txt machen.

Kris
quelle

Wer möchte nur, dass auf der Startseite eine Vorschau angezeigt wird? Ich weiß, dass auf jeder Seite eine gute Vorschau angezeigt werden soll. Wenn Sie dies für jede Seite tun, negieren Sie im Wesentlichen den Zweck, die Bilder überhaupt zu blockieren.

John Conde

@ John Du hast recht. In diesem Fall soll Google Sie entweder indizieren oder nicht.

Kris