So beenden Sie die Indizierung meines Github-Repositorys durch Google

69

Ich verwende Github, um den Text einer meiner Websites zu speichern, aber das Problem ist, dass Google den Text auch in Github indiziert. Der gleiche Text wird also sowohl auf meiner Website als auch auf Github angezeigt. zB diese Suche Der Top-Hit ist meine Seite. Der zweite Treffer ist das Github-Repository.

Es macht mir nichts aus, wenn die Leute die Quellen sehen, aber ich möchte nicht, dass Google sie indiziert (und möglicherweise für doppelte Inhalte bestraft). Gibt es eine Möglichkeit, außer dem privaten Repository Google anzuweisen, die Indizierung zu beenden?

Was passiert bei Github Pages ? Dies sind Sites, an denen sich die Quelle in einem Github-Repository befindet. Haben sie das gleiche Problem der Vervielfältigung?

Nehmen Sie diese Suche, die am häufigsten getroffenen führt zur Marpa-Site, aber ich sehe die Quelle nicht im Suchergebnis. Wie?

szabgab
quelle
7
Wenn ich mir die robots.txt von Github ansehe, sehe ich, dass die Blobs im Hauptzweig erlaubt sind, aber alle anderen Zweige deaktiviert sind. Dies ist wahrscheinlich die Erklärung dafür, dass der Marpa-Inhalt nicht indiziert wird. Wenn ich also einen anderen Zweig verwende und den Hauptzweig aus dem Repository entferne, wird die Indizierung möglicherweise gestoppt.
Szabgab
[robots.txt Direktiven zusammengefasst] [1] 1
LAFK sagt Reinstate Monica

Antworten:

86

Die Datei https://github.com/robots.txt von GitHub ermöglicht die Indizierung der Blobs im 'Master'-Zweig, schränkt jedoch alle anderen Zweige ein. Wenn Sie also keinen Hauptzweig haben, sollte Google Ihre Seiten nicht indizieren.

So entfernen Sie den 'Master'-Zweig:

Erstellen Sie in Ihrem Klon einen neuen Zweig - nennen Sie ihn "main" und senden Sie ihn an GitHub

git checkout -b main
git push -u origin main

Ändern Sie auf GitHub den Standardzweig (siehe Abschnitt Einstellungen Ihres Repositorys) oder hier https://github.com/blog/421-pick-your-default-branch

Entfernen Sie dann den Hauptzweig von Ihrem Klon und von GitHub:

git branch -d master
git push origin :master

Lassen Sie andere Personen, die Ihr Repository möglicherweise bereits gespalten haben, dasselbe tun.

Wenn Sie GitHub finanziell unterstützen möchten, können Sie auch privat https://help.github.com/articles/making-a-public-repository-private verwenden

szabgab
quelle
2
Vielen Dank. Ich folgte den Schritten, aber ich machte es direkt von github.com
Gabriel
1
Interessant. Ich habe den Hauptzweig für Repos auf meiner Github-Website aus hygienischen Gründen gelöscht, ohne zu wissen, dass er diesen schönen Nebeneffekt haben würde.
Jeffrey Kegler
Wie wird das korrekte Rendern von Github-Seiten beibehalten, wenn kein Hauptzweig vorhanden ist?
Bevan
@Bevan Soweit ich weiß, werden die Github-Seiten aus dem Gh-Pages-Zweig bereitgestellt, falls vorhanden. help.github.com/articles/creating-project-pages-manually Nichts mit dem Hauptzweig zu tun.
Szabgab
2
@szabgab Das username.github.ioRepository wird bereitgestellt, wenn es sich in einem masterZweig befindet. Projekt-Repositorys wie username;github.io/project-onewerden basierend auf der gh-pagesBranche bereitgestellt. Siehe help.github.com/articles/user-organization-and-project-pages
David Jacquel
0

Wenn Sie sich an die Hauptniederlassung halten möchten, scheint es keinen Weg zu geben, ein privates Repo (und das Upselling Ihres GitHub-Kontos) oder einen anderen Dienst zu verwenden, der private Repos wie Bitbucket kostenlos anbietet .

iltempo
quelle
Ich habe bereits (vor ungefähr einer Stunde) den 'Master'-Zweig entfernt und jetzt habe ich einen' Haupt'-Zweig, aber ich frage mich, ist das genug?
Szabgab
-5

Kurze Markise. Ja, das kannst du mit robots.txt.

Wenn Sie verhindern möchten, dass Googlebot Inhalte auf Ihrer Website crawlt, haben Sie eine Reihe von Optionen, darunter die Verwendung von robots.txt, um den Zugriff auf Dateien und Verzeichnisse auf Ihrem Server zu blockieren.

Sie benötigen eine robots.txt-Datei nur, wenn Ihre Website Inhalte enthält, die von Suchmaschinen nicht indiziert werden sollen. Wenn Suchmaschinen alles auf Ihrer Website indizieren sollen, benötigen Sie keine robots.txt-Datei (nicht einmal eine leere).

Während Google den Inhalt von Seiten, die von robots.txt blockiert werden, nicht crawlt oder indiziert, können wir die URLs dennoch indizieren, wenn wir sie auf anderen Seiten im Web finden. Infolgedessen können die URL der Seite und möglicherweise andere öffentlich verfügbare Informationen wie Ankertext in Links zur Website oder der Titel aus dem Open Directory-Projekt (www.dmoz.org) in den Google-Suchergebnissen angezeigt werden.

Quellen:

http://support.google.com/webmasters/bin/answer.py?hl=de&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=de&answer=156449

Carlos Neves
quelle
9
Die robots.txt-Datei muss sich im Stammverzeichnis der Website befinden, und ich habe keinen Schreibzugriff auf github.com/robots.txt. Das Crawlen kann auch im HTML-Header eingeschränkt werden, aber ich glaube nicht, dass ich das kann Ändern Sie die von Github generierten Seiten für meinen Quellcode.
Szabgab
Falls jemand Roboter auf seinen erstellten GitHub-Seiten nicht zulassen möchte: Benutzer von GitHub-Seiten können eine robots.txt-Datei zu ihrem Benutzerseiten-Repository hinzufügen und damit Roboter auf allen erstellten Seiten steuern (Benutzername.github.io/*). Sie können die Quelle für ihre Benutzerseite jedoch nicht so ausblenden, wie sie sein muss master. masterKann für Projekt-Repositorys gelöscht und ein anderer Zweig für GitHub-Seiten verwendet werden. Nichts davon gilt für OP, da Szabgab sagt, dass er keine Github-Seiten verwendet.
Olavimmanuel