Als «mapreduce» getaggte Fragen

MapReduce ist ein Algorithmus zum Verarbeiten großer Datenmengen bei bestimmten Arten von verteilbaren Problemen unter Verwendung einer großen Anzahl von Knoten

202
Gute MapReduce-Beispiele [geschlossen]

Diese Frage passt derzeit nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich zu Debatten, Argumenten, Umfragen oder erweiterten Diskussionen führen. Wenn Sie der Meinung...

124
Verketten mehrerer MapReduce-Jobs in Hadoop

In vielen realen Situationen, in denen Sie MapReduce anwenden, bestehen die endgültigen Algorithmen aus mehreren MapReduce-Schritten. dh Map1, Reduce1, Map2, Reduce2 und so weiter. Sie haben also die Ausgabe der letzten Reduzierung, die als Eingabe für die nächste Karte benötigt wird. Die...

81
Der Container läuft über die Speichergrenzen hinaus

In Hadoop v1 habe ich jedem 7-Mapper- und Reduzierer-Steckplatz eine Größe von 1 GB zugewiesen. Meine Mapper und Reduzierer funktionieren einwandfrei. Mein Computer hat 8G Speicher, 8 Prozessor. Bei YARN wurde beim Ausführen derselben Anwendung auf demselben Computer ein Containerfehler angezeigt....

79
Hadoop abgeschnittener / inkonsistenter Zählername

Im Moment habe ich einen Hadoop-Job, der Zähler mit einem ziemlich großen Namen erstellt. Zum Beispiel die folgende : stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits. Dieser Zähler wird auf der...

71
Zählen Sie Zeilen in großen Dateien

Ich arbeite normalerweise mit Textdateien mit einer Größe von ~ 20 GB und zähle sehr oft die Anzahl der Zeilen in einer bestimmten Datei. So wie ich es jetzt mache, ist es einfach cat fname | wc -lund es dauert sehr lange. Gibt es eine Lösung, die viel schneller wäre? Ich arbeite in einem...