Wie erhalte ich eine Liste aller indizierten Links?

8

Ich suche nach einer Möglichkeit, jeden von Google indizierten Link in eine CSV-Datei zu exportieren. In letzter Zeit wurden weit mehr Seiten von Google indiziert als tatsächlich und ich möchte herausfinden, woher all diese Seiten stammen, ohne jede Suchergebnisseite anzeigen zu müssen.

Lee
quelle
Woher haben Sie die Anzahl der indizierten Seiten?
MrWhite
Google Webmaster und Suchseite: domain.com
Lee
2
Das einzige, was ich sagen würde, ist, dass die in den Webmaster-Tools (Zustand> Indexstatus> Gesamtindex) gemeldeten Daten genauer sind als die von einer Site gemeldeten: domain.com-Suche. Eine Site: Search liefert meiner Erfahrung nach immer eine viel höhere Zahl, aber wenn Sie die SERPs durchlaufen, ist die tatsächliche Anzahl der Ergebnisse geringer als die Zahl "Über NNNN-Ergebnisse".
MrWhite
Nun, diese Seite war der Grund, warum ich mich überhaupt dafür interessierte. In 3 Monaten ist die Anzahl der indizierten Seiten von 27.000 auf 567.000 gestiegen, und ich möchte wissen, warum.
Lee

Antworten:

6

Leider gibt es keine Möglichkeit, eine vollständige Liste aller indizierten Seiten in Google zu erhalten. Selbst mit der Lösung von milo5b erhalten Sie höchstens 1.000 URLs.

Es hört sich so an, als hätten Sie Probleme mit doppelten Inhalten. Aktivieren Sie in den Webmaster-Tools "Gesundheit"> "Indexstatus" und es wird eine kumulierte Gesamtzahl der im Laufe der Zeit indizierten Seiten angezeigt. Wenn die Grafik an einem Punkt einen großen Sprung macht, können Sie möglicherweise herausfinden, ob eine bestimmte Änderung auf Ihrer Site den Sprung ausgelöst hat.

Sie können auch versuchen, die Webmaster-Tools von Bing zu verwenden . Sie haben einen Index-Explorer, mit dem Sie die URLs finden können. Suchmaschinenspinnen sind sich ziemlich ähnlich. Wenn Google diese Links gefunden hat, hat Bing dies wahrscheinlich auch getan.

Ich dachte, Bing hätte eine Möglichkeit, die meisten seiner Daten zu exportieren, aber ich kann sie nicht auf einen flüchtigen Blick finden. Es gibt jedoch eine API, mit der Sie wahrscheinlich alles extrahieren können.

DisgruntledGoat
quelle
Vielen Dank für den Bing-Vorschlag, aber es wurden nur 9.000 Seiten indexiert, und ich bin mir ziemlich sicher, dass dies nicht die Links sind, die ich brauchte.
Lee
8

Am Ende habe ich durch die Suche nach site: domain.com/foo/bar/ einen Drilldown in den problematischen Unterordner durchgeführt, aber bei meiner Suche bin ich auf eine Methode gestoßen, mit der die Suchergebnisse in eine Excel-Datei übernommen werden können.

Öffnen Sie eine Google Text & Tabellen-Tabelle und verwenden Sie die folgende Formel:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Es werden nur die ersten 100 Ergebnisse angezeigt, aber Sie können es erneut verwenden, um die nächsten 100 zu erhalten. Ändern Sie einfach die Startvariable:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Dies liefert nur bis zu 1000 Ergebnisse, wie bereits von DisgruntledGoat erwähnt. Die Formel kann jedoch geändert werden, um Links aus bestimmten Unterverzeichnissen bereitzustellen:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

Lee
quelle
Toller Tipp mit Google Text & Tabellen. Ich frage mich nur, was das eigentliche Problem in Bezug auf die zusätzlichen indizierten Seiten war - war es doppelter Inhalt?
MrWhite
1
Ich habe es auf vBulletin zurückgeführt, eine Forensoftware, die wir verwenden. Sie haben eine neue Funktion namens Aktivitätsstrom hinzugefügt und dem Benutzerbereich hinzugefügt. Jeder Benutzer hat also nicht nur Seiten seiner eigenen Aktivität in seinem Profil, sondern die gesamte Aktivität jedes Freundes, den er hat. Oben auf Google wurden leere Aktivitätsseiten indiziert, da vBulletin keine 404 zurückgeben würde. Am Ende habe ich den gesamten Abschnitt nicht indiziert.
Lee
importXML funktioniert nur ordnungsgemäß mit den alten Sheets, die über diesen Link aktiviert werden können: g.co/oldsheets
i.amniels
2

Sie können ein Skript schreiben, das das SERP von Google analysiert (z. B. PHP + Curl) und jeden Link in einer CSV-Datei speichern. Achten Sie darauf, dass sich Ihr Skript wie ein Mensch verhält, da Google Ihre IP-Adresse für einige Stunden aus den Suchergebnissen verbannen kann, wenn Sie dies missbrauchen.

milo5b
quelle