Ich verwende die folgende robots.txt-Datei für eine Site: Ziel ist es, Googlebot und Bingbot den Zugriff auf die Site mit Ausnahme der Seite zu ermöglichen /bedven/bedrijf/*
und alle anderen Bots daran zu hindern, die Site zu crawlen .
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Verbietet die letzte Regel User-agent: * Disallow: /
, dass alle Bots alle Seiten der Site crawlen?
web-crawlers
robots.txt
Konsole
quelle
quelle
robots.txt
sowieso völlig ignorierenrobots.txt
, oder zumindest dieDisallow: /
Regel. Wenn Ihre persönliche Website in den Boden gehämmert wird, weil ein Bot-Programmierer nie in Betracht gezogen hat, dass der Server ein Raspberry Pi am falschen Ende einer 256-kbit-Verbindung sein könnte, ist ein solcher pauschaler Ausschluss hilfreich.Antworten:
Dem letzten Datensatz (gestartet von
User-agent: *
) folgen alle höflichen Bots, die sich nicht als "googlebot", "google", "bingbot" oder "bing" identifizieren.Und ja, es bedeutet, dass sie nichts kriechen dürfen.
Vielleicht möchten Sie die wegzulassen
*
in/bedven/bedrijf/*
.In der ursprünglichen robots.txt-Spezifikation
*
hat keine besondere Bedeutung, es ist nur ein Charakter wie jeder andere. Es würde also nur das Crawlen von Seiten verbieten,*
deren URL buchstäblich den Charakter enthält .Während Google diesbezüglich nicht der robots.txt-Spezifikation folgt, weil sie
*
als Platzhalter für "jede Zeichenfolge" verwendet werden, wird dies in diesem Fall für sie nicht benötigt :/bedven/bedrijf/*
und/bedven/bedrijf/
würde genau dasselbe bedeuten: Blockieren Sie alle URLs, deren Pfad beginnt mit/bedven/bedrijf/
.Und schließlich können Sie Ihre robots.txt auf zwei Datensätze reduzieren, da ein Datensatz mehrere
User-agent
Zeilen haben kann :quelle
Bots, insbesondere schlechte, können die Datei robots.txt ignorieren. Egal was dort geschrieben steht, einige Bots können Ihre Site crawlen.
quelle