Als «distributed-computing» getaggte Fragen

376
Erklären von Apache ZooKeeper

Ich versuche ZooKeeper zu verstehen, wie es funktioniert und was es tut. Gibt es eine Anwendung, die mit ZooKeeper vergleichbar ist? Wenn Sie wissen, wie würden Sie ZooKeeper dann einem Laien beschreiben? Ich habe Apache Wiki, Zookeeper SourceForge ausprobiert ... aber ich kann mich immer noch...

253
Spark - repartition () vs coalesce ()

Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen...

127
Berechnen Sie den Median einer Milliarde Zahlen

Wenn Sie eine Milliarde Zahlen und einhundert Computer haben, wie können Sie den Median dieser Zahlen am besten ermitteln? Eine Lösung, die ich habe, ist: Teilen Sie das Set gleichmäßig auf die Computer auf. Sortieren Sie sie. Finden Sie die Mediane für jeden Satz. Sortieren Sie die Sätze nach...