Suchen Sie beispielsweise nach Infrastruktur-Stacks / Workflows / Pipelines

14

Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. B. Hadoop, Monogodb / NOSQL, Storm, Kafka, ... Ich weiß, dass dies eine ziemlich breite Palette von Werkzeugen ist, die für verwendet werden verschiedene Typen, aber ich möchte mehr über deren Interaktion in Anwendungen erfahren, z. B. Maschinelles Lernen für eine App, eine Webapp oder einen Online-Shop.

Ich habe Besucher / Sitzung, Transaktionsdaten usw. und speichere diese; Aber wenn ich spontan Empfehlungen aussprechen möchte, kann ich keine langsamen Karten- / Reduzierungsjobs für eine große Datenbank mit Protokollen ausführen, die ich habe. Wo kann ich mehr über die Infrastrukturaspekte erfahren? Ich denke, ich kann die meisten Tools alleine verwenden, aber das Ineinanderstecken scheint eine Kunst für sich zu sein.

Gibt es öffentliche Beispiele / Anwendungsfälle usw.? Ich verstehe, dass die einzelnen Pipelines stark vom Anwendungsfall und vom Benutzer abhängen, aber nur Beispiele werden mir wahrscheinlich sehr nützlich sein.

machine-learning bigdata efficiency scalability distributed chrshmmmr
quelle

Haben Sie darüber recherchiert? Es gibt viele YouTube-Videos und SlideShare-Präsentationen, die verschiedene Architekturen beschreiben

Stanpol,

1

Hey Stanpol, danke für deine Antwort - ich habe ein paar erste Suchanfragen durchgeführt und außer AWS und Cloudera-Sachen nicht wirklich etwas gefunden - vielleicht nehme ich es gerne von dort, wenn du mir ein paar vielversprechende Suchbegriffe geben kannst.

Chrshmmmr

14

Um die Vielfalt der Möglichkeiten zu verstehen, mit denen maschinelles Lernen in Produktionsanwendungen integriert werden kann, halte ich es für nützlich, Open-Source-Projekte und Artikel / Blogposts von Unternehmen anzusehen, die ihre Infrastruktur beschreiben.

Das gemeinsame Thema dieser Systeme ist die Trennung des Modelltrainings von der Modellanwendung. In Produktionssystemen muss die Modellanwendung schnell sein, in der Größenordnung von 100 ms, aber es besteht mehr Freiheit, wie häufig angepasste Modellparameter (oder Äquivalente) aktualisiert werden müssen.

Die Mitarbeiter nutzen eine breite Palette von Lösungen für die Schulung und Bereitstellung von Modellen:

Erstellen Sie ein Modell, exportieren Sie es und stellen Sie es mit PMML bereit
- AirBnB beschreibt das Modelltraining in R / Python und die Bereitstellung von PMML-Modellen über OpenScoring.
- Pattern ist ein Projekt im Zusammenhang mit Cascading , das PMML verbrauchen und Vorhersagemodelle bereitstellen kann.
Erstellen Sie ein Modell in MapReduce und greifen Sie auf Werte in einem benutzerdefinierten System zu
- Conjecture ist ein Open-Source-Projekt von Etsy , das Modelltraining mit Scalding , einem einfach zu verwendenden Scala-Wrapper für MapReduce und die Bereitstellung über PHP ermöglicht.
- Kiji ist ein Open-Source-Projekt von WibiData , das Echtzeit-Modellbewertung (Anwendung) sowie Funktionalität für die Speicherung von Benutzerdaten und Trainingsmodellen auf diesen Daten über Scalding ermöglicht.
Verwenden Sie ein Online-System, mit dem Modellparameter kontinuierlich aktualisiert werden können.
- Google hat eine großartige Veröffentlichung über eine Online-Filterung für die Zusammenarbeit veröffentlicht , die implementiert wurde, um Empfehlungen in Google News zu verarbeiten.

j_houg
quelle

7

Eine der detailliertesten und klarsten Erklärungen für die Einrichtung einer komplexen Analyse-Pipeline stammt von den Leuten bei Twitch .
Sie geben detaillierte Motive für jede Architekturauswahl für die Erfassung, den Transport, die Koordination, die Verarbeitung, die Speicherung und die Abfrage ihrer Daten.
Überzeugendes Lesen! Finden Sie es hier und hier .

tchakravarty
quelle

Das ist ziemlich genial, genau das, wonach ich gesucht habe! Vielen Dank :)

chrshmmmr

@chrshmmmr Gern geschehen. Vergessen Sie nicht, als akzeptiert zu stimmen, wenn dies geholfen hat!

Tschakravarty

3

Diese Links scheinen in der Tat sehr nützlich zu sein, aber andererseits sind sie Links, und ich denke, wir sollten uns bemühen, die Antworten unabhängig von der Stabilität der äußeren Quellen beizubehalten. Daher wäre es schön, wenn Sie zwei oder drei Minuten benötigen würden, um beispielsweise das Diagramm aus diesem Link hinzuzufügen und zusammen mit einer kurzen Beschreibung zu veröffentlichen. Etwas in den Zeilen von: "Dies ist zum Beispiel der Workflow eines ... Systems. <Img>. Weitere Informationen finden Sie in <link>."

Rubens

1

@Rubens Ich werde in Kürze eine Bearbeitung vorschlagen. fgnu: Werde das tun, brauche nur ein bisschen mehr Ansehen, um die Antworten tatsächlich zu verbessern, aber ich werde deinen Beitrag auf jeden Fall ehren :)

jeden Fall

@Rubens Das wäre nicht mehr als die Informationen am Link zu reproduzieren. Ich würde, wenn es etwas gäbe, von dem ich glaube, dass es die dort bereits gegebene Erklärung ergänzen würde.

Tschakravarty

3

Airbnb und Etsy haben kürzlich detaillierte Informationen zu ihren Workflows veröffentlicht.

Trey
quelle

1

Kapitel 1 von Practical Data Science mit R ( http://www.manning.com/zumel/ ) enthält eine detaillierte Beschreibung des datenwissenschaftlichen Prozesses, einschließlich der Teamrollen und ihrer Beziehung zu bestimmten Aufgaben. Das Buch folgt den in diesem Kapitel beschriebenen Modellen, indem es darauf verweist, von welchen Stufen / Personen diese oder jene bestimmte Aufgabe ausgeführt werden würde.

d8aninja
quelle

Suchen Sie beispielsweise nach Infrastruktur-Stacks / Workflows / Pipelines

Antworten: