Kann Googlebot URLs / URIs von Apache-Websites crawlen oder abrufen? [geschlossen]

0

Das ist alles, was ich damit wissen möchte. - Ich habe bei Google gesucht und es werden solche Situationen nicht einmal erwähnt (Crawlen von Websites mit Apache-Index / ausgefallenem Index-Layout). Aber ich weiß, dass ich eine Spinne zu einer Website senden und alle Arten von Dingen finden kann, die nicht verlinkt sind. Kann Googlebot das auch mit Websites wie meiner tun [insurgent.info]?

Y Treehugger Cymru
quelle

Antworten:

2

Kann Googlebot URLs / URIs von Apache-Index- / Fancy-Index-Sites crawlen oder abrufen?

Ja.

Ich habe eine Suche bei Google durchgeführt und es werden solche Situationen nicht einmal erwähnt (Crawlen von Websites mit Apache-Index / ausgefallenem Index-Layout).

Wahrscheinlich, weil es wirklich nichts Bemerkenswertes zu erwähnen gibt. =)

Die Unfähigkeit, einen Teil oder die gesamte Seite zu analysieren, tritt normalerweise nur mit JavaScript auf, da mit Ausnahme von Google die meisten Web-Crawler keinen JavaScript-Code ausführen. Apache gibt Indizes (auch die ausgefallenen Versionen) als einfache HTML-Seiten zurück (kein JavaScript).

Es gibt wahrscheinlich ein Gespräch über Suchmaschinenoptimierung mit Nur-Index-Websites, aber wahrscheinlich ist das auch so. Das heißt, googeln " Firefox FTP " gibt https://ftp.mozilla.org/pub/firefox/releases/ als erstes Ergebnis zurück.

Ich weiß, dass ich eine Spinne zu einer Site schicken und alle möglichen Dinge finden kann, die nicht miteinander verknüpft sind ...

Alles, worauf eine Spinne (oder was-hast-du) normalerweise zugreift, wird als URL / URI irgendwo im Code für die Seiten verlinkt, die analysiert werden (auch wenn es für "normale" Besucher nicht sichtbar ist).

Die einzigen Ausnahmen könnten sein:

  • Links, für deren Zugriff JavaScript erforderlich ist (z. B. beim langsamen Laden), was fortgeschrittenere Bots zumindest in Verbindung mit Headless-Browsern manchmal sowieso können.

  • Links, die auf dem Raten von Brute-Force-URLs basieren (am häufigsten von böswilligen Skripten / Tools usw.).

  • Links, die versehentlich durch einen Serverkonfigurationsfehler oder eine Sicherheitslücke erstellt wurden und zu Dateien außerhalb des Webstamms führen.

... kann Googlebot also auch mit meinen Sites umgehen?

In Bezug auf Apache-Index- / Phantasie-Indexseiten kann Googlebot alles indizieren, auf das ein normaler (oder sogar versierter) Besucher zugreifen kann.

Anaksunaman
quelle
Nochmals eine Qualitätsberatung von jemandem mit Erfahrung und Wissen. - Vielen Dank. Ich habe auch Google darauf aufmerksam gemacht, dass die Googlebot-
Hilfeseite
Lol! Immer gerne helfen! ;-) In Bezug auf Google werden sie hoffentlich einige gute Ratschläge von Ihnen entgegennehmen und die Dinge ändern. =)
Anaksunaman