Von Google indizierte Entwicklungsseite

8

Ich habe eine neue Version unserer Website auf einer Subdomain ( dev.oursite.com) entwickelt und die robots.txt mit der wurde Disallowirgendwann ersetzt, sodass die Website von Google und anderen Suchmaschinen indiziert wurde. Es zeigt keine hohen Ergebnisse oder ähnliches, aber es enthält alle doppelten Inhalte und ich möchte lieber, dass es nicht da ist.

Die Subdomain ist jetzt weg und ich habe eine 301, die jede Seite von dev.oursite.com/page-namenach umleitet http://oursite.com/page-name.

Muss ich noch etwas tun, damit die Entwickler-Website nicht mehr in Google angezeigt wird? Wird es irgendwann von selbst verschwinden?

Kyle
quelle
4
Google hat eine hilfreiche FAQ-Seite dafür: support.google.com/webmasters/bin/…
chrisjlee

Antworten:

7

Überprüfen Sie das Tool zum Entfernen von URLs in den Google Webmaster-Tools. Ich würde auch 404 Seiten , anstatt sie umzuleiten , sie zu erhalten schneller entfernt, in Zukunft über robots.txt Sie in der Drop könnte rel="canonical"sicherstellen , dass Google die Entwickler - Website kennt , ist nur eine Kopie der Haupt - Website und ist nicht zu sein indiziert.

Joshak
quelle
3

Ich bin immer besorgt darüber, dass Entwicklungsseiten indiziert werden. Ich vertraue robots.txt nicht oder meta noindexwährend ich sie benutze, schütze ich die Websites auch mit einem Passwort, wenn es nicht zu unpraktisch ist. Eine andere Möglichkeit besteht darin, .htaccess zu verwenden und den Zugriff auf alle Personen außer IPs in Ihrem Unternehmen sowie auf Mitarbeiter und Entwickler zu verweigern. Fügen Sie einfach ihre Klasse C hinzu.

Anagio
quelle
1
Dies ist der beste Weg. 403 alle außer einer Reihe von Adressen oder Adressblöcken. Der Rest der Welt verschwindet und nur diejenigen, die es sehen müssen, können es. Nach der Tatsache für diese Frage, aber gut zu wissen für die Zukunft. Möglicherweise benötigen Sie auch nach dem Start eine privat zugängliche Dev-Site für Upgrade-Tests, benutzerdefinierte Programmierung von
Fiasco Labs
1

Neben der richtigen Antwort von Joshak möchte ich Ihnen einen Tipp geben, wie dies verhindert werden kann.

Was ich getan habe, um genau dieses Problem zu lösen, ist, die robot.txt in der Apache httpd-Definition des vhost zu erzwingen. Auf diese Weise kann das "Verbot" auf keinen Fall durch Code auf der in Entwicklung befindlichen Website verschwinden oder geändert werden. Meine vhost-Definitionen sehen alle ungefähr so ​​aus:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Niels Basjes
quelle