Verwenden Sie liblinear für Big Data zur semantischen Analyse

17

Ich benutze Libsvm , um Daten zu trainieren und Klassifizierungen für semantische Analyseprobleme vorherzusagen . Bei umfangreichen Daten tritt jedoch ein Leistungsproblem auf, da die semantische Analyse das Problem der n-Dimension betrifft .

Letztes Jahr wurde Liblinear veröffentlicht und kann Leistungsengpässe beheben . Aber es kostet zu viel Speicher . Ist MapReduce die einzige Möglichkeit, das Problem der semantischen Analyse für Big Data zu lösen? Oder gibt es andere Methoden, die den Speicherengpass bei Liblinear verbessern können ?

Papageientaucher GDI
quelle

Antworten:

11

Beachten Sie, dass es eine frühe Version von LIBLINEAR gibt, die auf Apache Spark portiert ist . In den Kommentaren zur Mailingliste finden Sie einige frühe Details und die Projektwebsite .

Sean Owen
quelle
Danke für deine Antwort. Es sieht anders aus als SVM. Ich werde es überblicken. :)
Papageientaucher GDI
4
Nur eine Erinnerung daran, dass wir nicht dazu ermutigen, externe Links mit einer Antwort zu verknüpfen, da die Verknüpfungen leicht unterbrochen werden und eine ansonsten nützliche Community-Ressource in eine Sackgasse gerät. Es ist immer am besten, die Antwort direkt in Ihren Beitrag zu schreiben.
Ana,
1
Stimme dem zu. Zum jetzigen Zeitpunkt gibt es kaum mehr als diesen Link. Ich werde einen Link zum zugrunde liegenden Projekt hinzufügen.
Sean Owen
10

Sie können Vowpal Wabbit auschecken . Es ist sehr beliebt für umfangreiches Lernen und enthält parallele Bestimmungen.

Von ihrer Website:

VW ist der Inbegriff von Geschwindigkeit beim maschinellen Lernen, das mit Leichtigkeit aus Terafeature-Datensätzen lernen kann. Durch das parallele Lernen kann der Durchsatz einer einzelnen Maschinennetzwerkschnittstelle beim linearen Lernen überschritten werden - ein Novum unter den Lernalgorithmen.

Marc Claesen
quelle
1
Open Source und etwas Wiki. Es sieht gut aus. Danke für Ihren Vorschlag. :)
Papageientaucher GDI