Wie kann man Millionen von Seiten von Google Bot indizieren lassen?

12

Wir entwickeln derzeit eine Website mit derzeit 8 Millionen einzigartigen Seiten, die sofort auf etwa 20 Millionen und schließlich auf mindestens 50 Millionen erweitert werden.

Bevor Sie kritisieren ... Ja, es bietet einzigartige, nützliche Inhalte. Wir verarbeiten ununterbrochen Rohdaten aus öffentlichen Aufzeichnungen und konnten durch einige Datenbereinigungen, Entitäts-Rollups und Beziehungszuordnungen qualitativ hochwertige Inhalte generieren. So haben wir eine Website entwickelt, die zum Teil aufgrund der Breite der Website sehr nützlich und auch einzigartig ist Daten.

Der PR-Wert ist 0 (neue Domain, keine Links), und wir werden mit einer Rate von ca. 500 Seiten pro Tag überflutet, was einem Index von ca. 30.000 Seiten entspricht. Bei dieser Geschwindigkeit würde es über 400 Jahre dauern, alle unsere Daten zu indizieren.

Ich habe zwei Fragen:

  1. Steht die Indexierungsrate in direktem Zusammenhang mit PR, und damit meine ich, dass durch den Kauf einer alten Domain mit guter PR eine brauchbare Indexierungsrate (in der Nähe von 100.000 Seiten pro Tag) erreicht wird.
  2. Gibt es SEO-Berater, die auf die Unterstützung des Indexierungsprozesses selbst spezialisiert sind? Ansonsten kommen wir mit SEO sehr gut zurecht, insbesondere auf der Seite. Außerdem ist die Konkurrenz für unsere "Long-Tail" -Schlüsselwortphrasen ziemlich gering, sodass unser Erfolg hauptsächlich von der Anzahl der indizierten Seiten abhängt.

Unser Hauptkonkurrent hat in etwas mehr als einem Jahr ca. 20 Millionen indizierte Seiten zusammen mit einem Alexa-2000-Rang erreicht.

Bemerkenswerte Eigenschaften, die wir vor Ort haben:

  • Seiten-Download-Geschwindigkeit ist ziemlich gut (250-500 ms)
  • Keine Fehler (keine 404- oder 500-Fehler, wenn man spidered wird)
  • Wir verwenden Google Webmaster-Tools und melden uns täglich an
  • freundliche URLs vorhanden
  • Ich habe Angst, Sitemaps einzureichen. Einige SEO-Community-Posts schlagen eine neue Site mit Millionen von Seiten vor, und keine PR ist verdächtig. Es gibt ein Google-Video von Matt Cutts, in dem von einer Inszenierung großer Websites gesprochen wird, um eine verstärkte Überprüfung zu vermeiden (im Video um ca. 2:30 Uhr).

  • Klickbare Site-Links liefern alle Seiten, nicht mehr als vier Seiten tief und normalerweise nicht mehr als 250 (-ish) interne Links auf einer Seite.
  • Ankertext für interne Links ist logisch und fügt den Daten auf den Detailseiten hierarchische Relevanz hinzu.
  • Wir hatten zuvor die Crawling-Rate für Webmaster-Tools auf die höchste festgelegt (nur etwa alle zwei Sekunden, max. Eine Seite). Ich habe es kürzlich zurückgedreht, um Google entscheiden zu lassen, was empfohlen wird.

Chris Adragna
quelle
6
Ich würde wirklich gerne 50 Millionen Seiten mit einzigartigen nützlichen Inhalten sehen. Es ist cool, dass Wikipedia im Vergleich zu Ihrer Website nur 3,5 Millionen Seiten hat [Ref. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio
3
:) Wenn man über den Sarkasmus hinausblickt ... es ist nicht die Anzahl der Seiten, die Wikipedia zu einer enormen Wissensquelle macht - klar, ja - nützlicher. Unsere Website generiert eine Seite für jeden Datensatz einer Person und eine Seite für jeden Datensatz eines Unternehmens in unserer Datenbank. Wir verwenden Datenanalyse und -bereinigung, um dynamisch Beziehungen zwischen Geschäftspartnern zu generieren und ein Geschäftsnetzwerk verwandter Personen und Unternehmen grafisch darzustellen. Die Anzahl der Seiten ist eine Funktion der Datenmenge, über die wir verfügen. Indem Sie es über die Suche auffindbar machen, wird es für alle nützlicher. Danke für deinen Kommentar.
Chris Adragna
1
Holen Sie sich mehr PageRank, indem Sie mehr Inlinks erhalten. Verlinken Sie Ihre Seiten von Seiten mit PageRank.
Alex Black

Antworten:

20

Einige mögliche Strategien:

  • Mit den Google Webmaster-Tools können Sie eine erhöhte Crawling-Rate anfordern. Versuchen Sie das, wenn Sie es noch nicht getan haben.
  • Sehen Sie sich Ihre Navigationsarchitektur noch einmal an, um festzustellen, ob Sie den Zugriff auf weitere Inhalte nicht verbessern können. Betrachten Sie es aus der Sicht eines Benutzers: Wenn es für einen Benutzer schwierig ist, eine bestimmte Information zu finden, kann es auch für Suchmaschinen schwierig sein.
  • Stellen Sie sicher, dass Sie keine doppelten Inhalte haben, da die URL-Parameter inkonsistent sind oder Schrägstriche nicht ordnungsgemäß verwendet werden. Indem Sie doppelte Inhalte entfernen, sparen Sie Zeit, die Googlebot für das Crawlen bereits indizierter Inhalte benötigt.
  • Verwenden Sie, wann immer möglich, verwandte Inhaltslinks und Links innerhalb Ihrer Inhalte.
  • Randomisieren Sie einige Ihrer Links. Eine Seitenleiste mit zufälligem internen Inhalt ist ein großartiges Muster.
  • Verwenden Sie Datteln und andere Mikroformate .
  • Verwenden Sie nach Möglichkeit RSS-Feeds. RSS-Feeds funktionieren ähnlich wie eine Sitemap (in der Tat können Sie mit den Webmaster-Tools einen Feed als Sitemap senden).
  • Informationen zu Sitemaps finden Sie in dieser Frage .
  • Finden Sie Möglichkeiten, um externe Links zu Ihren Inhalten zu erhalten. Dies kann den Indizierungsprozess beschleunigen. Wenn es für die Art des Inhalts angemessen ist, hilft es dabei, das Teilen in sozialen Netzwerken oder per E-Mail zu vereinfachen.
  • Stellen Sie eine API bereit, um die Verwendung Ihrer Daten und externe Links zu Ihren Daten zu fördern. Sie können einen Zuordnungslink als Voraussetzung für die Datennutzung haben.
  • Umarme die Community. Wenn Sie die richtigen Leute auf die richtige Weise erreichen, erhalten Sie externe Links über Blogs und Twitter.
  • Suchen Sie nach Möglichkeiten, um eine Community rund um Ihre Daten zu erstellen. Finde einen Weg, es sozial zu machen. APIs, Mashups und soziale Widgets helfen, aber auch ein Blog, Community-Präsentationen, Foren und Spielmechanismen (siehe auch dieses Video ).
  • Priorisieren Sie die von Ihnen indizierten Inhalte. Mit so vielen Daten wird nicht alles absolut wichtig sein. Treffen Sie eine strategische Entscheidung darüber, welcher Inhalt am wichtigsten ist, z. B. wird er am beliebtesten sein, hat die besten Chancen auf einen ROI, ist am nützlichsten usw., und stellen Sie sicher, dass dieser Inhalt zuerst indexiert wird.
  • Machen Sie eine detaillierte Analyse dessen, was Ihr Konkurrent tut, um seinen Inhalt zu indizieren. Schauen Sie sich ihre Site-Architektur, ihre Navigation, ihre externen Links usw. an.

Zum Schluss sollte ich das sagen. SEO und Indizierung sind nur ein kleiner Teil der Geschäftswebsite. Verlieren Sie nicht den Fokus auf den ROI im Sinne der Suchmaschinenoptimierung. Selbst wenn Sie viel Verkehr von Google haben, spielt es keine Rolle, ob Sie ihn nicht konvertieren können. SEO ist wichtig, aber es muss in der Perspektive gehalten werden.

Bearbeiten :

Als Ergänzung zu Ihrem Anwendungsfall: Sie könnten in Betracht ziehen, Bewertungen oder Testimonials für jede Person oder jedes Unternehmen anzubieten. Das Verteilen von Benutzerausweisen wie StackOverflow kann auch dazu führen, dass zumindest einige Personen auf ihr eigenes Profil auf Ihrer Website verlinken. Das würde einige externe Links zu Ihren tiefen Seiten fördern, was bedeuten könnte, dass Sie schneller indexiert werden.

Virtuosi Media
quelle
1
+1 - Erwähnt immer, dass SEO ein Mikrokosmos des größeren Problems der Geschäftsförderung ist; Es ist auch am einfachsten (zumindest für technisch denkende Menschen), sich zu verirren. Im Moment sehen mehr Menschen Fernsehen als zu irgendeinem früheren Zeitpunkt in der Geschichte - je nachdem, was Sie anbieten, hat Fernsehwerbung möglicherweise eine bessere Wirkung ROI als PPC ...
danlefree
Gute Idee auf den Mikroformaten. Es ist keine Silberkugel, aber wir haben eine Reihe von Stellen, an denen semantisches Markup mit Mikroformat-Standards hilfreich sein könnte.
Chris Adragna
1
Ich weiß nicht, ob Mikroformate (außer möglicherweise ein Zeitstempel) eine schnellere Indizierung bedeuten würden, aber es kann andere SEO-Vorteile geben, wenn sie verwendet werden. Zumindest erleichtert dies das Crawlen Ihrer Seiten und kann dazu beitragen, dass Ihr Eintrag (abhängig vom Mikroformat) auf der Suchergebnisseite der Suchmaschine hervorsticht.
Virtuosi Media
5

Wie kann man Millionen von Seiten von Google Bot indizieren lassen?

Es wird jedoch nicht von heute auf morgen geschehen. Ich garantiere, dass Ihre Seiten früher gespidert werden, wenn eingehende Links zu tiefgreifenden Inhalten (insbesondere Sitemap-Seiten oder Verzeichnisindizes, die auf noch tiefgreifendere Inhalte verweisen) von ähnlich großen Websites hinzugefügt werden Ich bin schon eine Weile hier.

Reicht eine ältere Domain aus, um 100.000 Seiten pro Tag zu indizieren?

Zweifelhaft, es sei denn, Sie sprechen von einer älteren Domain, auf der im Laufe der Jahre eine erhebliche Aktivität stattgefunden hat (dh angesammelte Inhalte und eingehende Links).

Gibt es SEO-Berater, die auf die Unterstützung des Indexierungsprozesses selbst spezialisiert sind?

Wenn Sie die Frage so stellen, werden Sie sicher viele SEOs finden, die lautstark "Ja!" Aber am Ende des Tages sind die Vorschläge von Virtuosi Media so gute Ratschläge, wie Sie von keinem von ihnen erhalten werden (ganz zu schweigen von den potenziell schlechten Ratschlägen).

In Anbetracht dessen sollten Sie erwägen, das Ranking Ihrer Website an dieser Stelle mithilfe von Kanälen für Geschäftsentwicklung und Öffentlichkeitsarbeit zu verbessern. Erhalten Sie mehr Links zu Ihren Inhalten (vorzugsweise durch Partnerschaften mit einer vorhandenen Website, die regional ausgerichtete Inhalte zum Verknüpfen mit Ihren Inhalten anbietet B. nach Regionen aufgeteilte Inhalte), damit mehr Menschen auf Ihre Website zugreifen (bei einigen wird die Google-Symbolleiste installiert, damit der Datenverkehr für die Seitenerkennung genutzt werden kann ) und wenn möglich, Ihr Unternehmen in den Nachrichten oder in Communitys bekannt macht von Menschen, die ein Bedürfnis danach haben (wenn Sie vorhaben, für bestimmte Dienste eine Gebühr zu erheben, sollten Sie eine kostenlose Testphase inserieren, um Interesse zu wecken).

danlefree
quelle
3

Ich kenne zwei Möglichkeiten, um Ihnen zu helfen.

Erstens: Ein kleiner Trick, den ich mit einer Website mit drei Millionen Seiten ausprobiert habe und der überraschend gut funktioniert hat, war das, was mein Kollege für eine Crawl-Schleife erfunden hat. Möglicherweise müssen Sie die Idee ein wenig manipulieren, um sie an Ihre Website anzupassen.

Grundsätzlich haben wir einen Tag festgelegt, an dem wir nicht dachten, dass wir viel Verkehr bekommen würden (Weihnachten), und wir haben buchstäblich eine Liste jedes einzelnen Links auf unserer Website kopiert und jeden einzelnen in eine PHP-Datei eingefügt, die auf jeder einzelnen Webseite aufgerufen wurde. (Die Sidebar PHP-Datei)

Wir gingen dann zur Google-Suchkonsole (ehemals Google Webmaster-Tools) und forderten Google auf, eine URL abzurufen und jeden einzelnen Link auf dieser URL-Seite zu crawlen.

Da Sie so viele Links haben und die Seiten, auf die diese Links verweisen, auch über eine große Anzahl von Links verfügen, geht Google in eine Art Schleife und durchsucht die Website auf viel schnellere Weise. Anfangs war ich skeptisch, aber es wirkte wie ein Zauber.

Bevor Sie dies tun, müssen Sie sicherstellen, dass Sie über ein äußerst effizientes Datenbank-Setup und einen sehr leistungsstarken Server verfügen. Andernfalls kann es aufgrund der langsamen Ladezeiten zu einer Überlastung des Servers oder zu einer Beeinträchtigung Ihrer SEO kommen.

Wenn dies keine Option für Sie ist, können Sie immer in googles Cloud Console Apis nachsehen. Sie haben eine Suchkonsolen-API, sodass Sie ein Skript schreiben können, um entweder jede Webseite als eigene Website-Instanz in die Suchkonsole einzufügen oder um zu veranlassen, dass Google jede einzelne Ihrer URLs abruft.

Die Apis können extrem schnell kompliziert werden, sind aber ein erstaunliches Werkzeug, wenn sie richtig verwendet werden.

Viel Glück!

Zak
quelle
Das Verknüpfen Ihrer Seiten ist eine hervorragende Strategie, um alle Seiten zu crawlen. Viel besser, als sich auf eine XML-Sitemap zu verlassen. Ich würde diese Links jedoch die ganze Zeit über beibehalten, anstatt nur am Weihnachtstag. Sobald Sie die Links entfernen, bemerkt Google, dass die Seiten Links verloren haben, und hört auf, sie zu indizieren.
Stephen Ostermiller
2

Das Spielen des Systems ist niemals eine gute Idee, wenn Sie ein legitimes Unternehmen betreiben, das seinen Online-Ruf schätzt. Wenn Ihre Website einen echten Mehrwert bietet, werden umso mehr Backlinks generiert, je länger sie besteht (ich nehme an, Sie betreiben eine Art Marketing?), Sodass Ihre PR und Ihre Crawling-Rate steigen.

Wenn Sie eine gute Linkstruktur auf Ihrer Website haben (alle Ihre Seiten sind mit einer angemessenen Anzahl von Klicks / Links auffindbar), müssen Sie die Hauptindizes nur über eine Sitemap einreichen. Sobald diese Seiten von Google indiziert wurden, werden sie von Google gecrawlt und der Rest der Seiten wird von Google selbst indiziert.

Majestätsbeleidigung
quelle
+1 RE: Spielen des Systems - obwohl ich denke, es sollte beachtet werden, dass es viele Alternativen zum Spielen des Systems gibt, die es einem Webmaster ermöglichen, legitime Backlinks (die für Besucher nützlich sind) auf seine Website zu generieren.
Danlefree
@danlefree: Auf jeden Fall. Ich bezog mich nur auf den Kauf abgelaufener Domain-Namen, um deren restlichen PR / Traffic zu erhalten. Wenn Sie jedoch Werbung für Ihre Website schalten, Pressemitteilungen an Fachpublikationen, Websites zur Anwendungsüberprüfung usw. senden können, sind dies sehr gute Möglichkeiten, um legitime Backlinks zu generieren.
Majestätsbeleidigung
2

Bei den Google Webmaster-Tools stelle ich fest, dass sie zunächst eine maximale Crawling-Rate von etwa zwei Anforderungen pro Sekunde zulassen. Etwa eine Woche später können Sie Ihr Limit erhöhen, wenn sie feststellen, dass häufig auf die Website zugegriffen wird.

Ich betreibe eine Website, auf der über 500.000 Originalbilder gehostet werden, und manchmal liegt mein Maximalwert bei 10 Anfragen pro Sekunde, da ich mindestens 700 bis 1000 Zugriffe pro Tag erhalte, wenn nicht sogar mehr.

Wenden Sie sich daher möglicherweise jede Woche an die Webmaster-Tools, um festzustellen, ob Sie das Crawling-Limit erhöhen können. Wenn Sie das Crawling-Limit ändern, setzt Google es nach Ablauf eines bestimmten Tages wieder auf die bevorzugten Einstellungen zurück (dies wird Ihnen auf der Benutzeroberfläche angezeigt). Erhöhen Sie dann an diesem Tag das Limit erneut.

Mike
quelle
2

Ich habe Erfahrung mit genau dieser Art von Website. Ich habe vor vielen Jahren ein Artikelverzeichnis geführt und der Prozentsatz der indizierten Seiten und, was noch wichtiger ist, die tatsächliche Leistung war so ziemlich direkt mit der Anzahl der verweisenden Domains verknüpft - dh der Anzahl der eindeutigen Websites, auf die verlinkt wird. Eine große Site mit Millionen von Seiten benötigt mehrere 1.000 Seiten vernünftige Domains verlinken, um sich selbständig zu machen.

Es wird sicher nicht über Nacht passieren, aber wenn Sie 5-10 gute Links pro Tag aufbauen, werden Sie in der Lage sein, Einkommen zu generieren und damit ein professionelles SEO-Outfit zu bezahlen, um Links aufzubauen für dich.

Ich erstelle zurzeit eine ähnliche informative Website, die noch in den Anfängen steckt, habe jedoch das gleiche Problem mit etwa 4 Millionen Inhaltsseiten mit einer Crawling-Rate von 700 bis 1.000 Seiten pro Tag.

Adrian Lawrence
quelle
1

Ich kenne zwei Möglichkeiten, um Ihnen zu helfen.

Erstens: Ein kleiner Trick, den ich mit einer Website mit drei Millionen Seiten ausprobiert habe und der überraschend gut funktioniert hat, war das, was mein Kollege für eine Crawl-Schleife erfunden hat. Möglicherweise müssen Sie die Idee ein wenig manipulieren, um sie an Ihre Website anzupassen.

Grundsätzlich haben wir einen Tag festgelegt, an dem wir nicht dachten, dass wir viel Verkehr bekommen würden (Weihnachten), und wir haben buchstäblich eine Liste jedes einzelnen Links auf unserer Website kopiert und jeden einzelnen in eine PHP-Datei eingefügt, die auf jeder einzelnen Webseite aufgerufen wurde. (Die Sidebar PHP-Datei)

Wir gingen dann zur Google-Suchkonsole (ehemals Google Webmaster-Tools) und forderten Google auf, eine URL abzurufen und jeden einzelnen Link auf dieser URL-Seite zu crawlen.

Da Sie so viele Links haben und die Seiten, auf die diese Links verweisen, auch über eine große Anzahl von Links verfügen, geht Google in eine Art Schleife und durchsucht die Website auf viel schnellere Weise. Anfangs war ich skeptisch, aber es wirkte wie ein Zauber.

Bevor Sie dies tun, müssen Sie sicherstellen, dass Sie über ein äußerst effizientes Datenbank-Setup und einen sehr leistungsstarken Server verfügen. Andernfalls kann es aufgrund der langsamen Ladezeiten zu einer Überlastung des Servers oder zu einer Beeinträchtigung Ihrer SEO kommen.

Wenn dies keine Option für Sie ist, können Sie immer in googles Cloud Console Apis nachsehen. Sie haben eine Suchkonsolen-API, sodass Sie ein Skript schreiben können, um entweder jede Webseite als eigene Website-Instanz in die Suchkonsole einzufügen oder um zu veranlassen, dass Google jede einzelne Ihrer URLs abruft.

Die Apis können extrem schnell kompliziert werden, sind aber ein erstaunliches Werkzeug, wenn sie richtig verwendet werden.

Viel Glück!

ram singh
quelle
Option 1 ist eindeutig gegen die Nutzungsbedingungen von Google und es ist wahrscheinlicher, dass Sie verletzt werden, als Ihnen zu helfen
John Conde