Ich bin der Hauptdesigner und Autor eines ziemlich umfangreichen Webcrawlers (siehe metadatalabs.com/mlbot (archivierter Link) ). Was Sie fragen, berührt ein Thema, das für uns sehr wichtig ist - vielleicht das Wichtigste, um einen Crawler zu betreiben: das der Höflichkeit.
Erstens: Der Grund für die "Mozilla" Sache ist, der Site mitzuteilen, was Ihre Browserfähigkeiten sind. Wenn Ihr Bot nicht versucht, sich wie ein Browser zu verhalten, gibt es keinen besonderen Grund, warum Sie das "Mozilla" -Ding einbinden müssen.
Wie für Ihre User-Agent-Zeichenfolge und andere höflichkeitsbezogene Elemente:
Wählen Sie einen Namen, von dem Sie wissen, dass er von niemand anderem verwendet wird. Ich vermute, wenn Sie "Goofybot" verwenden, wird es Ihnen gut gehen. Aber ich würde es überprüfen, um sicher zu sein.
Ihre Benutzeragentenzeichenfolge sollte einen Link zu weiteren Informationen über den Bot enthalten. Beispielsweise lautet unsere Zeichenfolge "MLBot (www.metadatalabs.com/mlbot)".
Stellen Sie sicher, dass, wenn jemand nach "Goofybot" sucht, diese Seite in den Suchergebnissen ganz oben steht (vorzugsweise an erster Stelle).
Auf Ihrer Seite über den Bot sollte angegeben sein, wofür Sie die Informationen verwenden, von welchen IP-Adressen Sie crawlen und auf welche Weise sich Personen bei Problemen mit dem Bot mit Ihnen in Verbindung setzen können.
Sie sollten schnell auf alle Fragen oder Beschwerden antworten und dabei die Philosophie "Der Kunde hat immer Recht" anwenden. Denken Sie daran, wenn Ihr Bot ein Problem verursacht hat, über das sich diese Person beschwert, dann hat er wahrscheinlich Probleme auf einem Dutzend anderer Websites verursacht, über die sich niemand beschwert hat. Entweder haben sie die Probleme nicht gesehen oder sie haben nur Ihre IP-Adresse blockiert.
Sie sollten die Funktion einbauen, um zu verhindern, dass Ihr Bot auf einen bestimmten Domainnamen zugreift. Einige Leute möchten nicht, dass Sie überhaupt crawlen und haben keinen Zugriff oder keine technische Fähigkeit, eine robots.txt zu erstellen oder .htaccess zu blockieren. Wir haben festgestellt, dass wir mit dieser Funktion jemandem mitteilen können, dass MLBot ein Problem verursacht hat. Vielleicht nicht überraschend, beruhigt das die Leute sehr schnell.
Wenn Sie robots.txt noch nicht respektieren, tun Sie es. Nichts bringt Ihnen schneller einen schlechten Ruf ein, als robots.txt zu ignorieren.
Wow. Das dauerte länger als ich erwartet hatte. In den letzten vier Jahren habe ich jeden dieser Fehler gemacht, auf die ich oben verweise, und noch andere. Wir haben jedoch festgestellt, dass die Mehrheit der Webmaster uns als einen guten Internet-Bürger ansieht, wenn wir offen für unsere Aktivitäten sind und ehrlich kommunizieren (einschließlich der Veröffentlichung von Informationen über Fehler, bevor wir Beschwerden erhalten).
Mozilla / 2.0 und Mozilla / 5.0 beziehen sich beide auf den Mozilla-Browser. Es ist weitgehend bedeutungslos geworden, da es von vielen Crawlern verwendet wird, sollte aber der Website mitteilen, dass sie Ihren Crawler so behandeln soll, als ob zufällige Benutzer mit einem normalen Browser surfen würden.
Es ist jedoch eine gute Etikette, im folgenden Abschnitt eine URL anzugeben, die auf eine Seite verweist, die angibt, wer Sie sind und warum Sie crawlen. Ask Jeeves kann mit nur dem Namen davonkommen, aber Sie sollten eine URL angeben.
Z.B
Auf diese Weise können Web-Administratoren herausfinden, warum Sie ihre Website crawlen, und sich bei Problemen mit dem Verhalten Ihres Crawlers an Sie wenden.
quelle
Ich denke, die folgenden Links können helfen:
quelle