Entfernen der vollständigen Website aus dem Google-Index

7

Ich möchte den Inhalt aus dem Google-Index entfernen. Der Google-Index enthält auf meinen Websites eine große Anzahl von Seiten, die etwa 5.000.000 Seiten früher im Google-Index indiziert wurden. Jetzt sind es 3.025.000.

Ich habe die folgenden Dinge gemacht, aber das Entfernen von Seiten ist sehr langsam.

robots.txt:

User-agent: *
Disallow: /

.htaccess:

rewriteengine on
rewritecond %{HTTP_USER_AGENT} ^.*Googlebot/2.1.*$
rewriterule .* - [F,L]

Dies ist der Inhalt, der an Googlebot zurückgegeben wird, wenn versucht wird, den Inhalt zu crawlen:

HTTP/1.1 410 Gone
Date: Sat, 05 Jan 2013 12:39:23 GMT
Server: Apache/2.2.23 (Unix) mod_ssl/2.2.23 OpenSSL/0.9.8e-fips-rhel5
        mod_fastcgi/2.4.6 mod_jk/1.2.37 mod_auth_passthrough/2.1 mod_bwlimited/
        1.4 FrontPage/5.0.2.2635 PHP/5.3.19
Content-Length: 661
Connection: close
Content-Type: text/html; charset=iso-8859-1

Ich hatte auch das HTML-Meta-Tag verwendet noindex, kein Follow, aber kein Effekt als:

<meta name="googlebot" content="noindex,nofollow">

Ich hatte auch eine Website zum Entfernen eingereicht, aber die Geschwindigkeit des Entfernens von Inhalten ist sehr langsam. In den letzten 35 Tagen wurden nur wenige Seiten entfernt. Meine Website wird ebenfalls aus dem Google-Suchindex entfernt, aber der Google Webmasters Tools - Health -> Indexstatus zeigt weiterhin 3.025.000 Seiten an. Wenn ich die Website erneut einreiche, werden bereits indizierte Seiten angezeigt. Wie kann ich die Geschwindigkeit zum Entfernen von Seiten erhöhen?

Vineet1982
quelle
Leider bin ich mir nicht sicher, ob Sie die Geschwindigkeit zum Entfernen von Webseiten leicht erhöhen können. Überprüfen Sie diesen Link .
Zistoloen
@ Zistoloen Es wird sehr gesagt, dass sie Algorithmen für die Indizierung sind, aber nichts über die Bereinigung des Web-Index
Vineet1982
Tatsächlich. Ich denke, Google zieht es vor, neue Webseiten zu präsentieren, als alte zu entfernen.
Zistoloen
Ich hatte ein ähnliches Problem: webmasters.stackexchange.com/questions/15510/… . Sehr frustrierend, dass Google diese Kontrolle nicht zulässt.
JCL1178
Ich habe bereits in einer meiner doppelten Domänen meiner Website <meta name = "robots" content = "noindex, nofollow"> verwendet. Wenn ich jedoch die doppelte Website durchsuche, wird nicht der gesamte Inhalt vollständig von der Website entfernt. Dann habe ich die Domänenweiterleitung verwendet, um die zweite Domäne dauerhaft zur primären Domäne umzuleiten.
Joe Salim

Antworten:

4

.htaccess


  • Ich habe gerade die letzte Minute damit verbracht, mit meiner User-AgentEinstellung auf Googlebot 2.1 auf Ihrer Website herumzuklicken, und ich habe keine einzige 410 getroffen. Ich bin kein Experte für .htaccess, aber sind Sie sicher, dass Ihre .htaccess-Regel ordnungsgemäß funktioniert? breit?

  • F sollte eine 403 (Verboten) produzieren, nicht die 410, die Ihr Fetch als Googlebot produziert hat.

  • Warum nur Google mitteilen, dass die Seite verboten, verschwunden oder was auch immer ist? Ihr Meta noindexwürde vorschlagen, dass Sie andere Suchmaschinen als Google anweisen möchten.

Meta Noindex


Sie scheinen bestimmte Roboter anzuweisen noindexund dies dann aufzuheben, indem Sie allen Robotern sagen index:

<meta name="googlebot" content="noindex,nofollow">
<meta name="searchbot" content="noindex,nofollow">
<meta name="baidu" content="noindex,nofollow">
<meta name="geo.country" content="IN">
<meta name="robots" content="Index, Follow">


Robots.txt


Ihre robots.txt-Datei enthält tatsächlich keine

User-Agent: *

Disallow: / 

wie du sagst. Es beinhaltet

User-agent: *
Disallow: /judgment_view
Disallow: /payment
Disallow: /include
Disallow: /search.php*
Disallow: /admin

Obwohl es nicht so wichtig ist, da es nur das Crawlen verhindern und keinen Inhalt aus dem Index entfernen würde .

Lösung


Sie haben nicht genau angegeben, was Ihr Ziel ist, und es ist auch nicht klar, welche Schritte Sie auf Ihrer Website unternommen haben, aber das oben Genannte sollte als Ausgangspunkt dienen.

GDav
quelle
Vielen Dank, dass Sie sich die Zeit genommen und die Website angesehen haben. Gestern habe ich den Code in .htaccess gelöscht. Wenn Sie 410 drücken, werden die Crawling-Fehler angezeigt. Die Seite wird 90 Tage lang überprüft, um sie aus dem Index zu löschen.
Vineet1982
wenn Sie die Arbeits von .htaccess sehen wollen , lassen Sie mich wissen , den Code wieder zu aktivieren , wie es perfekt wie vorgesehen arbeiten , um die obigen Ergebnisse von Abruf wie durch Google Bot - Tool von Google
Vineet1982
3

Google löscht Seiten nicht so schnell, zum Teil, weil die Seiten geordnet sind. Wenn sie schnell gelöscht werden, jammern die Leute darüber, dass sie ihre Seitenränge mit einem unbemerkten Fehler verlieren. Es ist also eine Art Gnadenfrist, um Dinge kurzzuschließen.

Das Problem bei .htaccess-Weiterleitungen besteht darin, dass Google davon ausgehen kann, dass es sich um einen Fehler innerhalb von HTACCESS handelt, der in regelmäßigen Abständen erneut überprüft wird. Wenn Sie viele, viele Seiten haben, ist dies ein zeitaufwändiger Vorgang.

Außerdem sollten Sie auf jeder Seite eine ausführen, da die robots.txt bei Crawls nicht immer überprüft wird. Ich persönlich würde .htaccess überhaupt nicht verwenden, da sie immer wieder zurückkehren und davon ausgehen, dass es sich um einen Fehler handelt. NOINDEX ist schneller als Roboter und htaccess, aber probieren Sie das oben verlinkte Entfernungsprogramm aus.

<meta name="robots" content="noindex,nofollow">

Ein weiterer Faktor ist, wie Google Ihre Website im Hinblick auf das Ranking behandelt und wie schnell sie ist. Wenn Sie also auf einem VPS die Geschwindigkeit erhöhen, sollte dies die Anzahl der Seiten erhöhen, die Google crawlen wird, da der Google-Bot eine X-mal zugewiesene Zeit crawlt und dann unabhängig davon verlässt, und Sie möchten so viel Saft wie möglich möglich.

Beste Methode, Hit oder Miss

Der beste Weg, URLs umgehend zu entfernen, ist über die Webmaster-Tools. Sie haben jedoch 3 Millionen Seiten, die unrealistisch unmöglich werden. Es gibt jedoch ein Tool zum Entfernen von Websites, von dem viele nichts wissen und das lustig genug ist, dass die URL fast dieselbe ist.

PRÜFEN

http://www.google.com/webmasters/tools/removals

http://www.google.com/webmasters/tools/url-removal?hl=de&siteUrl= (Dies ist das Webmaster-Tool - das oben genannte können Sie zum Entfernen von Websites anfordern.)

Simon Hayter
quelle
2

Würde das Hinzufügen von: <meta name="robots" content="noindex,nofollow">zum Kopfbereich der Seiten Ihrer Website dazu beitragen, die Dinge zu beschleunigen?

mahnsc
quelle