Wie kann ich mein Github-Wiki von Suchmaschinen crawlen lassen? robots.txt scheint es zu verbieten

9

Bei der Verwendung des W3C-Link-Checkers habe ich festgestellt, dass mein Github-Wiki nicht gecrawlt werden kann:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (N / A) Verboten von robots.txt

Dies ist bedauerlich, da ich möchte, dass die Leute dieses Wiki in Suchmaschinen leicht finden.

FRAGE: Wie kann ich mein Github-Wiki von Suchmaschinen crawlen lassen?
Oder irre ich mich und Githubs robots.txt ist tatsächlich in Ordnung?

schön
quelle
1
Ich vermute, die Antwort ist ungefähr dieselbe wie in dieser ähnlichen Frage .
John C

Antworten:

9

Die GitHub- Datei robots.txt verbietet das Crawlen der Wiki-Seiten ausdrücklich, beispielsweise im Googlebot-Bereich:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Da es sich um die Site-weite Roboterdatei handelt, führt kein Weg daran vorbei.

Dies ist eine interessante Wahl, da GitHub Wikis als einen Ort beschreibt, an dem Sie "Langform-Inhalte über Ihr Projekt teilen" können. Da öffentliche Wikis standardmäßig von jedem Benutzer bearbeitet werden können, handelt es sich möglicherweise um einen umfassenden Schutz vor Spammern.

John C.
quelle
0

GitHub-Wikis können von Engines durchsucht werden, die dies unterstützen. Siehe die ersten beiden Zeilen von https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/

Das ist wahrscheinlich zum Parsen verschiedener Wiki-Formate usw.

Suchen Sie beispielsweise in Google nach "Openrefine Broker Protocol" und der erste Treffer ist eine Seite unter einem Github-Projekt-Wiki.

Peter Kehl
quelle
Hmm, warum indiziert Google das Broker-Protocol- Wiki und nicht das OP-Wiki?
Vidar S. Ramdal