Ich lese seit einiger Zeit gerne ServerFault und bin auf einige Themen in Hadoop gestoßen. Ich hatte ein wenig Probleme herauszufinden, was es aus globaler Sicht macht.
Meine Frage ist also ganz einfach: Was ist Hadoop? Was tut es ? Was wird es verwendet ? Warum tritt es in den Arsch?
Bearbeiten: Wenn jemand Demonstrationen / Erklärungen von Anwendungsfällen hat, in denen Hadoop verwendet wurde, wäre das fantastisch.
Antworten:
Direkt aus dem Maul des Pferdes :
Map / Reduce ist ein von Google verbreitetes Programmierparadigma, bei dem eine Aufgabe in kleine Teile aufgeteilt und zur Verarbeitung auf eine große Anzahl von Knoten verteilt wird (Map). Die Ergebnisse werden dann zur endgültigen Antwort zusammengefasst (Reduce) ). Google und Yahoo nutzen dies unter anderem für ihre Suchmaschinentechnologie.
Hadoop ist ein allgemeines Framework für die Implementierung dieser Art von Verarbeitungsschema. Was den Grund angeht, warum es nicht gut läuft, vor allem, weil es nette Funktionen wie Fehlertoleranz bietet und Sie so ziemlich jede Art von Hardware zusammenbringen können, um die Verarbeitung durchzuführen. Es lässt sich auch sehr gut skalieren, vorausgesetzt, Ihr Problem passt zum Paradigma.
Sie können alles darüber auf der Website lesen .
Als Beispiel hat Paul ein paar gegeben, aber hier sind ein paar mehr, die Sie machen könnten, die nicht so weborientiert sind:
und dann werden die Ergebnisse im Schritt "Reduzieren" zusammengefasst.
Im Wesentlichen funktioniert das Modell sehr gut für ein Problem, das in ähnliche diskrete Berechnungen zerlegt werden kann, die vollständig unabhängig sind und zu einem Endergebnis rekombiniert werden können.
quelle
Cloudera hat einige großartige Videos, die die Prinzipien von Map Reduce und Hadoop erklären.
http://www.cloudera.com/hadoop-training-basic
Eine der Kernideen von MapReduce ist, dass Sie bei großen Datenmengen auf Ihren Festplatten gebunden sein werden. In Hadoop HDFS können Sie also die Dinge auf mehrere Knoten aufteilen, um eine parallele Verarbeitung zu ermöglichen.
Einige Verwendungen von Hadoop, die für Systemadministratoren von Interesse sind, betreffen häufig die Verarbeitung großer Protokolldateigruppen. Ich kann nur einen Link posten, aber dazu gehört, dass Google diese finden sollte:
quelle
Zunächst wurde hadoop für eine große Anzahl von Datensätzen in einer OLAP-Umgebung entwickelt.
Mit der Einführung von Hbase auf Hadoop kann Zuckerrohr auch für die OLAP-Verarbeitung verwendet werden. Hadoop ist ein Framework mit allen Unterkomponenten wie map reduction, hdfs, hbase, pig.
Wenn ja, wird der Artikel mit den Grundlagen von Hadoop in Why Hadoop vorgestellt .
In Hadoop Datenspeicherung in Form von Dateien, nicht in den Tabellen, Spalten.
quelle