Welche Datenbanktechnologien verwenden große Suchmaschinen? [geschlossen]

32

Weiß jemand, wie Google oder Yahoo bei sehr großen Datenmengen nach Stichwörtern suchen? Welche Art von Datenbank oder Technologien setzen sie dafür ein?

Es dauert nur wenige Millisekunden, aber es werden mehr als eine Milliarde Seiten indiziert.

rkosegi
quelle
Es gibt eine ähnliche Frage zu Stack Overflow: stackoverflow.com/questions/362956/…
Splattne

Antworten:

21

Ich bin sicher, dass es eine Kombination von Dingen gibt:

  • ernsthafte Hardware
  • viele davon - Daten werden über viele Knoten und verschiedene Rechenzentren verteilt und repliziert

    • (Eigentlich glaube ich, dass sie im Google-Fall Tausende und Abertausende von wirklich Low-End-Servern haben.)
  • Die Ergebnisse vieler gängiger Abfragen werden zwischengespeichert. Beachten Sie, dass sie potenzielle Suchvorgänge nach Dingen auffüllen, von denen Sie wissen, dass Sie noch nie zuvor danach gesucht haben. Sie sagen voraus, wonach Sie suchen könnten, und hoffen, dass sie Ihr Ergebnis bereits vorberechnet und irgendwo zwischengespeichert haben. In vielen Fällen ist dies der Fall - es gibt nicht viele Suchanfragen, die Sie heute bei Google finden könnten und die noch nicht von jemandem vor Ihnen gestellt wurden. Wenn sie einen neuen Suchbegriff erhalten, verwenden sie wahrscheinlich so etwas wie eine Freitextsuche - und ich würde erwarten, dass Schlüsselwörter semantisch extrahiert werden, wenn eine Seite zum ersten Mal gecrawlt wird, anstatt zu versuchen, Schlüsselwörter im Dokument zu finden, nachdem Sie nach ihnen gesucht haben . Natürlich müssen sie diese Caches in regelmäßigen Abständen ungültig machen und den Page Rank neu berechnen.
Aaron Bertrand
quelle
34

Tauben .

Das Herzstück von Googles Suchtechnologie ist PigeonRank ™ , ein System zum Ranking von Webseiten, das von den Google-Gründern Larry Page und Sergey Brin von der Stanford University entwickelt wurde:

Bildbeschreibung hier eingeben

Aufbauend auf der bahnbrechenden Arbeit von BF Skinner schlussfolgerten Page und Brin, dass kostengünstige Taubencluster (PC) verwendet werden könnten, um den relativen Wert von Webseiten schneller zu berechnen als menschliche Editoren oder maschinenbasierte Algorithmen. Und während bei Google täglich Dutzende von Ingenieuren daran arbeiten, jeden Aspekt unseres Service zu verbessern, bietet PigeonRank weiterhin die Grundlage für alle unsere Websuchwerkzeuge.

Warum Googles patentierter PigeonRank ™ so gut funktioniert

Der Erfolg von PigeonRank beruht in erster Linie auf der hervorragenden Trainingsfähigkeit der Haustaube (Columba livia) und ihrer einzigartigen Fähigkeit, Objekte unabhängig von der räumlichen Ausrichtung zu erkennen. Die gewöhnliche graue Taube kann leicht zwischen Elementen unterscheiden, die nur die geringsten Unterschiede aufweisen. Dadurch kann sie relevante Websites aus Tausenden ähnlicher Seiten auswählen.

Durch das Sammeln von Taubenschwärmen in dichten Clustern kann Google Suchanfragen mit einer Geschwindigkeit verarbeiten, die der herkömmlicher Suchmaschinen überlegen ist, bei der Raubvögel, brütende Hühner oder sich langsam bewegende Wasservögel für ihre Relevanzklassifizierungen eingesetzt werden.

Wenn eine Suchanfrage an Google gesendet wird , wird sie an ein Datencenter weitergeleitet, in dem Flash-Ergebnisseiten mit rasender Geschwindigkeit überwacht werden . Wenn eine der Tauben im Cluster ein relevantes Ergebnis beobachtet , schlägt sie mit ihrem Schnabel auf eine gummierte Stahlstange, die der Seite den PigeonRank-Wert Eins zuweist. Für jeden Pick erhöht sich der PigeonRank . Die Seiten, die die meisten Picks erhalten, werden oben auf der Ergebnisseite des Benutzers zurückgegeben. Die anderen Ergebnisse werden in der Peckreihenfolge angezeigt.

ypercubeᵀᴹ
quelle
6
Hinweis: Diese Seite wurde für Aprilscherz - 2002
dr jimbob
19

Es ist wichtig, ein paar Dinge über Google zu beachten:

  • Ihre Datenbank ist die proprietäre BigTable - sie wurde von GOOGLE speziell für ihre Anforderungen entwickelt

  • Die proprietäre Datenbank des Unternehmens basiert auf dem proprietären Dateisystem Google File System. Auch dieses wurde von GOOGLE entwickelt, um mit gängiger Standardhardware problemlos erweitert werden zu können. Wie Aaron in seiner Antwort erwähnt hat, haben sie eine große Anzahl von durchschnittlichen Servern anstelle einer kleinen Anzahl von sehr leistungsfähigen Servern.

Sie speichern einzelne Tabellen über mehrere Computer hinweg, um den Zugriff zu beschleunigen. Ihre Software weiß, welche Daten sich auf welchem ​​Computer befinden, und statt eine Festplatte zu durchsuchen, um sie zu lokalisieren, kann sie direkt mit den relevanten Informationen zum Server geleitet werden.

JNK
quelle
9

Lesen Sie Steven Levys " In The Plex: Wie Google unser Leben denkt, funktioniert und gestaltet ". Dieses Buch ist eine faszinierende Lektüre über alles, was Google zu bieten hat, und behandelt auf hohem Niveau einige der Technologien und Techniken, die hinter der Suche stehen. Aaron fasst es in seiner Antwort sehr gut zusammen und Levys Buch wird Ihnen einige Details darüber geben, wie sie es tun.

Todd Everett
quelle