Als «hadoop» getaggte Fragen

Hadoop ist ein Open-Source-Projekt von Apache, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Der Kern besteht aus einem verteilten Dateisystem (HDFS) und einem Ressourcenmanager (YARN). Verschiedene andere Open-Source-Projekte wie Apache Hive verwenden Apache Hadoop als Persistenzschicht.

130
Unterschied zwischen HBase und Hadoop / HDFS

Dies ist eine naive Frage, aber ich bin neu im NoSQL-Paradigma und weiß nicht viel darüber. Wenn mir jemand helfen kann, den Unterschied zwischen HBase und Hadoop klar zu verstehen, oder wenn ich einige Hinweise gebe, die mir helfen könnten, den Unterschied zu verstehen. Bis jetzt habe ich einige...

124
Verketten mehrerer MapReduce-Jobs in Hadoop

In vielen realen Situationen, in denen Sie MapReduce anwenden, bestehen die endgültigen Algorithmen aus mehreren MapReduce-Schritten. dh Map1, Reduce1, Map2, Reduce2 und so weiter. Sie haben also die Ausgabe der letzten Reduzierung, die als Eingabe für die nächste Karte benötigt wird. Die...

110
Unterschied zwischen internen und externen Hive-Tabellen?

Kann mir jemand den Unterschied zwischen der externen und der internen Tabelle von Hive erklären? Ich weiß, dass der Unterschied beim Ablegen des Tisches entsteht. Ich verstehe nicht, was Sie unter Daten verstehen, und Metadaten werden in internen und nur Metadaten in externen Tabellen gelöscht....

108
Fehler beim Auffinden der Winutils-Binärdatei im Hadoop-Binärpfad

Beim Starten von namenode für die neueste Version von hadoop-2.2 wird die folgende Fehlermeldung angezeigt. Ich habe die Datei winutils exe nicht im Ordner hadoop bin gefunden. Ich habe unten Befehle ausprobiert $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main]...