Welche Bots und Spinnen soll ich in robots.txt blockieren?

14

Damit:

  1. Erhöhen Sie die Sicherheit meiner Website
  2. Reduzieren Sie die Bandbreitenanforderungen
  3. Ernten von E-Mail-Adressen verhindern
DaveC
quelle

Antworten:

17

Kein Bot, der E-Mails abruft oder Ihre Site auf Schwachstellen überprüft, respektiert Ihre robots.txt. Tatsächlich sehen sich diese böswilligen Bots die robots.txt an, um Ihre Site besser abzubilden. Wenn Sie einen Punkt haben, Disallow:wird dies verwendet, um Ihre Site besser anzugreifen. Ein Hacker, der Ihre Site manuell durchsucht, sollte zusätzliche Zeit damit verbringen, alle Dateien / Verzeichnisse zu untersuchen, die Sie nicht zulassen möchten.

Turm
quelle
3
Interessanter Punkt. Ich frage mich, ob es sinnvoll ist, eine gefälschte Seite zur Liste "Nicht zulassen" hinzuzufügen, deren einziger Zweck darin besteht, solche Bots auf frischer Tat zu fangen, damit sie automatisch blockiert werden können.
Steven Sudit
5
@Steven Sudit das ist keine schlechte Idee. Dies würde man Honigtopf nennen.
Rook
Ja, das ist genau richtig, obwohl ich eher an den Standardtrick von Verzeichniscompilern (Telefonbücher usw.) gedacht habe, eine kleine Anzahl gefälschter Einträge hinzuzufügen, um Großhandelsdiebstahl zu erkennen.
Steven Sudit
Wenn Sie diesen Honigtopf auch als Tarpit verwenden, werden auch die illegalen Indexer verärgert. Dies ist bei Spammern eigentlich recht häufig der Fall - hinterlassen Sie eine indexierbare E-Mail-Adresse im Honeypot, die zu einem Tarpit-E-Mail-Server führt.
Mark Henderson
@Farseeker Ich sehe kein Problem damit, diejenigen zu bestrafen, die gegen die Regeln verstoßen. Obwohl es eine interessante Wendung ist, Spammer mit schlechten Daten auszutricksen.
Rook
4

robots.txt erhöht weder die Sicherheit Ihrer Website noch verhindert es das Ernten von E-Mail-Adressen. robots.txt ist eine Anleitung für Suchmaschinen zum Überspringen von Abschnitten Ihrer Website. Diese werden nicht indiziert und sollten für Abschnitte verwendet werden, die nicht in öffentlichen Suchmaschinen angezeigt werden sollen.

Dies wird jedoch in keiner Weise verhindern, dass andere Bots Ihre gesamte Site herunterladen, um die Sicherheit zu erhöhen oder das Sammeln von E-Mails zu verhindern. Um die Sicherheit zu erhöhen, müssen Sie eine Authentifizierung hinzufügen und nur authentifizierte Benutzer außerhalb der gesicherten Bereiche zulassen. Um das Sammeln von E-Mail-Adressen zu verhindern, sollten Sie E-Mails nicht im Nur-Text-Format (oder in leicht zu entzifferendem Text) auf einer Website ablegen.

Sam
quelle
1

robots.txt hilft Ihnen nicht bei der Sicherheit. Jeder Bot, der etwas Schattiges tun möchte, ignoriert es trotzdem.

Strahl
quelle
0

Die robots.txt-Datei dient nur als Aufforderung, dass Bots und Spinnen bestimmte Inhalte in Ruhe lassen. es kann ihren Zugang nicht wirklich verhindern. Die "guten" Bots werden es respektieren, aber die "schlechten" (wahrscheinlich diejenigen, die Sie blockieren wollen) werden es ignorieren und trotzdem weitermachen.

derekerdmann
quelle
-1

Anstelle von robots.txt müssen Sie möglicherweise CAPTCHA-Codes verwenden.

Steven Sudit
quelle
CAPTCHA-Codes haben nichts mit Webcrawlern zu tun (das ist die Adresse von robots.txt).
User48838
Das war eine falsche Gegenstimme. Der springende Punkt ist, dass ein Crawler robots.txt ignorieren kann, aber CAPTCHA-Codes ihn zumindest verlangsamen, wenn er ihn nicht sofort blockiert. Danke, dass Sie sich geirrt haben.
Steven Sudit