Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. B. Hadoop, Monogodb / NOSQL, Storm, Kafka, ... Ich weiß, dass dies eine ziemlich breite Palette von Werkzeugen ist, die für verwendet werden verschiedene Typen, aber ich möchte mehr über deren Interaktion in Anwendungen erfahren, z. B. Maschinelles Lernen für eine App, eine Webapp oder einen Online-Shop.
Ich habe Besucher / Sitzung, Transaktionsdaten usw. und speichere diese; Aber wenn ich spontan Empfehlungen aussprechen möchte, kann ich keine langsamen Karten- / Reduzierungsjobs für eine große Datenbank mit Protokollen ausführen, die ich habe. Wo kann ich mehr über die Infrastrukturaspekte erfahren? Ich denke, ich kann die meisten Tools alleine verwenden, aber das Ineinanderstecken scheint eine Kunst für sich zu sein.
Gibt es öffentliche Beispiele / Anwendungsfälle usw.? Ich verstehe, dass die einzelnen Pipelines stark vom Anwendungsfall und vom Benutzer abhängen, aber nur Beispiele werden mir wahrscheinlich sehr nützlich sein.
Antworten:
Um die Vielfalt der Möglichkeiten zu verstehen, mit denen maschinelles Lernen in Produktionsanwendungen integriert werden kann, halte ich es für nützlich, Open-Source-Projekte und Artikel / Blogposts von Unternehmen anzusehen, die ihre Infrastruktur beschreiben.
Das gemeinsame Thema dieser Systeme ist die Trennung des Modelltrainings von der Modellanwendung. In Produktionssystemen muss die Modellanwendung schnell sein, in der Größenordnung von 100 ms, aber es besteht mehr Freiheit, wie häufig angepasste Modellparameter (oder Äquivalente) aktualisiert werden müssen.
Die Mitarbeiter nutzen eine breite Palette von Lösungen für die Schulung und Bereitstellung von Modellen:
Erstellen Sie ein Modell, exportieren Sie es und stellen Sie es mit PMML bereit
Erstellen Sie ein Modell in MapReduce und greifen Sie auf Werte in einem benutzerdefinierten System zu
Verwenden Sie ein Online-System, mit dem Modellparameter kontinuierlich aktualisiert werden können.
quelle
Eine der detailliertesten und klarsten Erklärungen für die Einrichtung einer komplexen Analyse-Pipeline stammt von den Leuten bei Twitch .
Sie geben detaillierte Motive für jede Architekturauswahl für die Erfassung, den Transport, die Koordination, die Verarbeitung, die Speicherung und die Abfrage ihrer Daten.
Überzeugendes Lesen! Finden Sie es hier und hier .
quelle
Airbnb und Etsy haben kürzlich detaillierte Informationen zu ihren Workflows veröffentlicht.
quelle
Kapitel 1 von Practical Data Science mit R ( http://www.manning.com/zumel/ ) enthält eine detaillierte Beschreibung des datenwissenschaftlichen Prozesses, einschließlich der Teamrollen und ihrer Beziehung zu bestimmten Aufgaben. Das Buch folgt den in diesem Kapitel beschriebenen Modellen, indem es darauf verweist, von welchen Stufen / Personen diese oder jene bestimmte Aufgabe ausgeführt werden würde.
quelle