Als «apache-hadoop» getaggte Fragen

Hadoop ist ein Open-Source-Projekt von Apache, das Software für zuverlässiges und skalierbares verteiltes Computing bereitstellt. Das Projekt selbst enthält eine Vielzahl weiterer ergänzender Ergänzungen.

16
Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist...

12
Ersetzt Amazon RedShift Hadoop für ~ 1XTB-Daten?

Es gibt viel Hype um Hadoop und sein Ökosystem. Ist es in der Praxis jedoch nicht sinnvoller, Amazon RedShift zum Abfragen großer Datenmengen zu verwenden, als Zeit und Mühe für die Erstellung eines Hadoop-Clusters zu investieren , wenn sich viele Datenmengen im Terabyte-Bereich befinden ? Wie ist...

11
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a...

10
Beste Sprachen für wissenschaftliches Rechnen [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 5 Jahren . Es scheint, als ob in...

10
Wie mache ich ein Batch-Innenprodukt in Tensorflow?

Ich habe zwei Tensoren a:[batch_size, dim] b:[batch_size, dim]. Ich möchte inneres Produkt für jedes Paar in der Charge machen c:[batch_size, 1], wo erzeugen c[i,0]=a[i,:].T*b[i,:].

9
Was sind Rs Speicherbeschränkungen?

Bei der Überprüfung von " Applied Predictive Modeling " stellt ein Prüfer fest : Eine Kritik, die ich an der Pädagogik des statistischen Lernens (SL) habe, ist das Fehlen von Überlegungen zur Rechenleistung bei der Bewertung verschiedener Modellierungstechniken. Mit seinen Schwerpunkten auf...

8
Kaskadierter Fehler im Apache-Sturm

Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten...