Als «hadoop» getaggte Fragen

87
Avro gegen Parkett

Ich plane, eines der Hadoop-Dateiformate für mein Hadoop-Projekt zu verwenden. Ich verstehe, dass Parkett effizient für spaltenbasierte Abfragen und avro für den vollständigen Scan ist oder wenn wir alle Spaltendaten benötigen! Bevor ich fortfahre und eines der Dateiformate auswähle, möchte ich...

87
Parkett gegen ORC gegen ORC mit Snappy

Ich führe einige Tests mit den mit Hive verfügbaren Speicherformaten durch und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy aufgenommen. Ich habe viele Dokumente gelesen, in denen angegeben ist, dass Parkett im Vergleich zu ORC...

81
Der Container läuft über die Speichergrenzen hinaus

In Hadoop v1 habe ich jedem 7-Mapper- und Reduzierer-Steckplatz eine Größe von 1 GB zugewiesen. Meine Mapper und Reduzierer funktionieren einwandfrei. Mein Computer hat 8G Speicher, 8 Prozessor. Bei YARN wurde beim Ausführen derselben Anwendung auf demselben Computer ein Containerfehler angezeigt....

79
Hadoop abgeschnittener / inkonsistenter Zählername

Im Moment habe ich einen Hadoop-Job, der Zähler mit einem ziemlich großen Namen erstellt. Zum Beispiel die folgende : stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits. Dieser Zähler wird auf der...