Ein aufstrebender Datenwissenschaftler hier. Ich weiß nichts über Hadoop, aber da ich über Data Science und Big Data gelesen habe, sehe ich viele Gespräche über Hadoop. Ist es absolut notwendig, Hadoop zu lernen, um ein Data Scientist zu
Hadoop ist ein Open-Source-Projekt von Apache, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl weiterer ergänzender Ergänzungen.
Ein aufstrebender Datenwissenschaftler hier. Ich weiß nichts über Hadoop, aber da ich über Data Science und Big Data gelesen habe, sehe ich viele Gespräche über Hadoop. Ist es absolut notwendig, Hadoop zu lernen, um ein Data Scientist zu
Mit Hadoop 2.0 und YARN ist Hadoop angeblich nicht mehr nur an Kartenreduzierungslösungen gebunden. Was sind die Anwendungsfälle für Apache Spark und Hadoop, wenn man bedenkt, dass beide auf HDFS basieren? Ich habe die Einführungsdokumentation für Spark gelesen, bin aber gespannt, ob jemand auf ein...
Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...
Ich habe von vielen Tools / Frameworks gehört, die Menschen bei der Verarbeitung ihrer Daten unterstützen (Big Data-Umgebung). Einer heißt Hadoop und der andere ist das noSQL-Konzept. Was ist der Unterschied in der Verarbeitung? Ergänzen sie
Kann mir jemand freundlich etwas über die Kompromisse erzählen, die bei der Auswahl zwischen Storm und MapReduce in Hadoop Cluster für die Datenverarbeitung entstehen? Abgesehen von der offensichtlichen Tatsache ist Hadoop (Verarbeitung über MapReduce in einem Hadoop-Cluster) natürlich ein...
Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist...
In unserem Unternehmen verfügen wir über eine MongoDB-Datenbank mit vielen unstrukturierten Daten, für die wir kartenreduzierende Algorithmen ausführen müssen, um Berichte und andere Analysen zu erstellen. Für die Implementierung der erforderlichen Analysen stehen zwei Ansätze zur Auswahl: Ein...
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...
Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in...
Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:].
Bei der Überprüfung von " Applied Predictive Modeling " stellt ein Prüfer fest : Eine Kritik, die ich an der Pädagogik des statistischen Lernens (SL) habe, ist das Fehlen von Überlegungen zur Rechenleistung bei der Bewertung verschiedener Modellierungstechniken. Mit seinen Schwerpunkten auf...
Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten...
Welche verschiedenen Klassen von datenwissenschaftlichen Problemen können mit dem Mapreduce-Programmiermodell gelöst
Geschlossen . Diese Frage basiert auf Meinungen . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage, damit sie mit Fakten und Zitaten beantwortet werden kann, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Kann jemand gute...
Ich bin neu bei RHadoop und auch bei RMR ... Ich musste einen Mapreduce-Job in R Mapreduce schreiben. Ich habe versucht zu schreiben, aber während der Ausführung gibt es einen Fehler. Versuchen Sie, die Datei von hdfs zu lesen Error: Error in mr(map = map, reduce = reduce, combine = combine,...
Ich lese über Lambda-Architektur. Es ergibt Sinn. Wir haben warteschlangenbasierte Datenaufnahme. Wir haben einen In-Memory-Speicher für Daten, der sehr neu ist, und wir haben HDFS für alte Daten. Wir haben also unseren gesamten Datensatz. in unserem System. sehr gut. Das Architekturdiagramm zeigt...