Als «hadoop» getaggte Fragen

96

Wie kann man die Größe eines HDFS-Verzeichnisses überprüfen?

Ich kenne du -shin gängigen Linux-Dateisystemen. Aber wie geht das mit

88

Kann Apache Spark ohne Hadoop laufen?

Gibt es Abhängigkeiten zwischen Spark und Hadoop ? Wenn nicht, gibt es Funktionen, die ich vermissen werde, wenn ich Spark ohne Hadoop ausführe

hadoop amazon-s3 apache-spark mapreduce mesos

87

Avro gegen Parkett

Ich plane, eines der Hadoop-Dateiformate für mein Hadoop-Projekt zu verwenden. Ich verstehe, dass Parkett effizient für spaltenbasierte Abfragen und avro für den vollständigen Scan ist oder wenn wir alle Spaltendaten benötigen! Bevor ich fortfahre und eines der Dateiformate auswähle, möchte ich...

hadoop avro parquet

87

Parkett gegen ORC gegen ORC mit Snappy

Ich führe einige Tests mit den mit Hive verfügbaren Speicherformaten durch und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy aufgenommen. Ich habe viele Dokumente gelesen, in denen angegeben ist, dass Parkett im Vergleich zu ORC...

hadoop hive parquet snappy orc

86

Woher kennen Sie die Hive- und Hadoop-Versionen an der Eingabeaufforderung?

Wie kann ich an der Eingabeaufforderung herausfinden, welche Hive-Version ich verwende? Unten ist die Details- Ich verwende Putty, um eine Verbindung zur Hive-Tabelle herzustellen und auf Datensätze in den Tabellen zuzugreifen. Also habe ich Putty geöffnet und in den Hostnamen, den ich eingegeben...

hadoop hive

84

Datenverarbeitung in großem Maßstab Hbase vs Cassandra [geschlossen]

Diese Frage passt derzeit nicht zu unserem Q & A-Format. Wir erwarten, dass die Antworten durch Fakten, Referenzen oder Fachwissen gestützt werden, aber diese Frage wird wahrscheinlich zu Debatten, Argumenten, Umfragen oder erweiterten Diskussionen führen. Wenn Sie der Meinung sind, dass diese...

nosql hadoop cassandra hbase data-processing

82

Verbindung zum Host localhost Port 22 herstellen: Verbindung abgelehnt

Während der Installation von Hadoop auf meinem lokalen Computer wurde der folgende Fehler angezeigt ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1:...

linux hadoop ssh

81

Wann beginnen reduzierte Aufgaben in Hadoop?

Wann beginnen in Hadoop reduzierte Aufgaben? Beginnen sie, nachdem ein bestimmter Prozentsatz (Schwellenwert) der Mapper abgeschlossen ist? Wenn ja, ist dieser Schwellenwert festgelegt? Welche Art von Schwelle wird normalerweise

hadoop mapreduce reduce

81

Der Container läuft über die Speichergrenzen hinaus

In Hadoop v1 habe ich jedem 7-Mapper- und Reduzierer-Steckplatz eine Größe von 1 GB zugewiesen. Meine Mapper und Reduzierer funktionieren einwandfrei. Mein Computer hat 8G Speicher, 8 Prozessor. Bei YARN wurde beim Ausführen derselben Anwendung auf demselben Computer ein Containerfehler angezeigt....

hadoop mapreduce yarn mrv2

79

Hadoop abgeschnittener / inkonsistenter Zählername

Im Moment habe ich einen Hadoop-Job, der Zähler mit einem ziemlich großen Namen erstellt. Zum Beispiel die folgende : stats.counters.server-name.job.job-name.mapper.site.site-name.qualifier.qualifier-name.super-long-string-which-is-not-within-standard-limits. Dieser Zähler wird auf der...

java hadoop mapreduce yarn

79

Wie gebe ich die Ergebnisse einer HiveQL-Abfrage an CSV aus?

Wir möchten die Ergebnisse einer Hive-Abfrage in eine CSV-Datei einfügen. Ich dachte, der Befehl sollte so aussehen: insert overwrite directory '/home/output.csv' select books from table; Wenn ich es ausführe, heißt es, dass es erfolgreich abgeschlossen wurde, aber ich kann die Datei nie...

database hadoop hive hiveql

77

Wie kann ich überprüfen, ob ZooKeeper ausgeführt wird oder an der Eingabeaufforderung ausgeführt wird?

Ich habe einige Optionen zum Einrichten von Kafka untersucht und wusste, dass der Zookeeper betriebsbereit sein muss, um ein Kafka zu initiieren. Ich würde gerne wissen, wie ich das unten finden kann. 1) Hostname und Port für meine Zookeeper-Instanz --- Ich habe die Datei zoo.cfg überprüft und...

hadoop config apache-zookeeper apache-kafka ps

75

Zusammenführen von Ausgabedateien nach der Reduzierungsphase

In mapreduce schreibt jede Reduzierungsaufgabe ihre Ausgabe in eine Datei mit dem Namen part-r-nnnnn, wobei nnnnn eine Partitions-ID ist, die der Reduktionsaufgabe zugeordnet ist. Führt Map / Reduce diese Dateien zusammen? Wenn ja, wie?

hadoop mapreduce

74

Hadoop mit Eclipse / Maven bauen - Fehlendes Artefakt jdk.tools:jdk.tools:jar:1.6

Ich versuche, clouderas org.apache.hadoop: hadoop-client: 2.0.0-cdh4.0.0 aus cdh4 maven repo in einem maven-Projekt in Eclipse 3.81, m2e-Plugin, mit oracles jdk 1.7.0_05 unter win7 zu importieren <dependency> <groupId>org.apache.hadoop</groupId>

java maven maven-2 hadoop cloudera