Bei der Verwendung des W3C-Link-Checkers habe ich festgestellt, dass mein Github-Wiki nicht gecrawlt werden kann:
https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (N / A) Verboten von robots.txt
Dies ist bedauerlich, da ich möchte, dass die Leute dieses Wiki in Suchmaschinen leicht finden.
FRAGE: Wie kann ich mein Github-Wiki von Suchmaschinen crawlen lassen?
Oder irre ich mich und Githubs robots.txt ist tatsächlich in Ordnung?
github
search-engine
wiki
schön
quelle
quelle
Antworten:
Die GitHub- Datei robots.txt verbietet das Crawlen der Wiki-Seiten ausdrücklich, beispielsweise im Googlebot-Bereich:
Da es sich um die Site-weite Roboterdatei handelt, führt kein Weg daran vorbei.
Dies ist eine interessante Wahl, da GitHub Wikis als einen Ort beschreibt, an dem Sie "Langform-Inhalte über Ihr Projekt teilen" können. Da öffentliche Wikis standardmäßig von jedem Benutzer bearbeitet werden können, handelt es sich möglicherweise um einen umfassenden Schutz vor Spammern.
quelle
GitHub-Wikis können von Engines durchsucht werden, die dies unterstützen. Siehe die ersten beiden Zeilen von https://github.com/robots.txt :
Das ist wahrscheinlich zum Parsen verschiedener Wiki-Formate usw.
Suchen Sie beispielsweise in Google nach "Openrefine Broker Protocol" und der erste Treffer ist eine Seite unter einem Github-Projekt-Wiki.
quelle