Ich arbeite an einem datenwissenschaftlichen Projekt zum Thema Social Relationship Mining und muss Daten in einigen Graphendatenbanken speichern. Anfangs habe ich Neo4j als Datenbank gewählt. Aber es scheint, dass Neo4j nicht gut skaliert. Die Alternative, die ich herausgefunden habe, sind Titan und oriebtDB. Ich habe diesen Vergleich für diese drei Datenbanken durchgeführt, möchte jedoch weitere Einzelheiten zu diesen Datenbanken erfahren. Könnte mir jemand bei der Auswahl des besten helfen? Hauptsächlich möchte ich die Leistung, Skalierung, Online-Dokumentation / verfügbare Tutorials, Python-Bibliotheksunterstützung, Komplexität der Abfragesprache und Unterstützung von Graph-Algorithmen dieser Datenbanken vergleichen. Gibt es auch andere gute Datenbankoptionen?
quelle
Antworten:
Ich denke, Sie müssen möglicherweise die allgemeinen Daten-Pipelines und maschinellen Lern-Pipelines berücksichtigen. Wofür Sie ein robustes Framework benötigen, um Daten zwischen tabellen- und grafikähnlichem Speicher zu verschieben, abgesehen von einer leistungsstarken verteilten Verarbeitung. Nach meinem Verständnis verspricht Spark GraphX, diese Pipelines zu bauen. Der Vortrag von Joseph Gonzalez (einer der Erfinder von GraphLab von CMU) über GraphX auf YouTube ist sehenswert.
quelle