Ich verwende Apache 2 und ein großer Teil unserer Seitenaufrufe stammt von Bots. Die meisten davon sind legitime wie Google und Bing.
Ich möchte die Protokolle analysieren und genaue Statistiken darüber erhalten, wie viele menschliche Besucher ich habe. Daher habe ich robots.txt vorübergehend aktualisiert, um Bots auf allen Seiten zu sperren. Ich weiß, dass dies nur teilweise wirksam ist, um den Bot-Zugriff zu verhindern, aber ich bin damit einverstanden.
Wie wirkt sich das Nichtzulassen von Bots auf Benutzer aus, die nach dieser Site suchen? Verhindert es, dass Nutzer die Seite bei Google finden?
web-crawlers
robots.txt
Tensigh
quelle
quelle
Antworten:
Durch das Verbot von Bots kann keine Suchmaschine den Inhalt der Website abrufen.
Letztendlich werden Sie keine Keywords bewerten. Es wäre nahezu unmöglich, Ihre Seite bei Google zu finden. Möglicherweise erhalten Sie Empfehlungsverkehr, aber keinen organischen Verkehr.
Hinweis: Robots.txt verbietet keine Bots, fordert sie jedoch auf, die Site nicht zu indizieren und zu crawlen. Welche großen Suchmaschinen-Bot wie Google, Yahoo & Bing folgen.
quelle
Das Verbot von Bots ist eine vergebliche Aktivität. Die einzigen Bots, die robots.txt gehorchen, sind hilfreiche Bots wie Googlebot und Bingbot. Böswillige Bots oder noch weniger skrupellose Suchdienst-Bots ignorieren Ihre robots.txt.
Das Sperren von Bots ist nur ein sicherer Weg, um das gesamte Seitenranking bei den wichtigsten Suchanbietern zu verlieren, UND Ihre Protokolle sind weiterhin voller Bot-Traffic.
quelle
and clearly labeled with "don't click this link or you will get banned" for humans
Google crawlt möglicherweise weiterhin Seiten, die von robots.txt ignoriert werden, und listet sie möglicherweise sogar auf. Siehe URLs mit robots.txt blockieren und Ignoriert Google robots.txt
quelle
Es ist wahrscheinlich sehr schwierig oder unmöglich, Ihre Website in Suchmaschinen zu finden, da die Suchmaschinen ihre Roboter nicht senden, um zu sehen, was sich auf Ihrer Website befindet. Sie wissen nicht, welche Wörter Sie verwenden, daher fällt es ihnen schwer zu sagen, für welche Suchanfragen Ihre Website relevant sein könnte.
Es ist jedoch möglich, dass Ihre Website weiterhin in den Suchergebnissen angezeigt wird, insbesondere wenn eine hochrangige Website einen Link zu Ihrer Website enthält. Google und möglicherweise andere Suchmaschinen verwenden möglicherweise nur Informationen aus dem Link, um zu entscheiden, ob Ihre Website auf ihren Ergebnisseiten angezeigt werden soll.
quelle
Die Daten aus Serverprotokollen sind begrenzt und weisen dank Faktoren wie Bots, Caching und CDN unvermeidlich ein hohes Verhältnis von Rauschen zu Signal auf.
Das Analysieren von Seitenaufrufen ist eine Aufgabe für die Analyse von Seiten-Tags.
quelle
Die richtige Antwort ist, sich nicht mit robots.txt herumzuschlagen und stattdessen Ihre Protokolle zu analysieren, indem Sie den User-Agent-Header wie in den Kommentaren erwähnt betrachten. Google, Yahoo usw. sollten sich anhand dieses Headers als Bots identifizieren. Wenn Sie Bots über robots.txt nicht zulassen, fahren Sie mit einem LKW durch Ihr Suchmaschinenranking. Wie @adria sagte, gibt es Tools, die dies für Sie tun können. Sehr beliebt ist Google Analytics . Hier erfahren Sie, wie sie mit Crawler-Datenverkehr umgehen .
quelle
Da ist deine erklärte Absicht zu
Die geeignete Lösung besteht darin, einen Dienst wie Google Analytics oder New Relic zu verwenden . Sobald Sie sich angemeldet haben, fügen Sie einen Ausschnitt aus Javascript in Ihre Seite ein (viele Engines wie WordPress können dies automatisch oder mit einem Plugin tun), der Informationen an den Überwachungsdienst sendet . Sobald ein solcher Dienst eingerichtet ist, erhalten Sie eine Fülle von Informationen über Ihre Besucher. Google Analytics ist in den Details, mit denen Benutzerinteraktionen mit Ihrer Website verfolgt werden, erstaunlich.
Diese Dienste sind so implementiert, dass nur echte Menschen verfolgt werden. Es wäre töricht, zu versuchen, das, was sie bereits so gut machen, erneut zu implementieren, und sie sind so nützlich, dass es fast töricht ist, einen solchen Dienst nicht zu verwenden.
quelle