Was steckt hinter der Google Prediction-API?

28

Google Prediction API ist ein Cloud-Dienst, bei dem Benutzer einige Trainingsdaten übermitteln können, um einen mysteriösen Klassifikator zu trainieren, und ihn später auffordern können, eingehende Daten zu klassifizieren, um beispielsweise Spam-Filter zu implementieren oder Benutzereinstellungen vorherzusagen.

Aber was steckt hinter den Kulissen?


quelle
2
Ich vermute, sie hoffen, das kommerziell vertraulich zu behandeln!
am
Dies mag stimmen, doch das Video (ab Sommer 2010) deutet darauf hin, dass sie zu diesem Zeitpunkt noch experimentiert hatten. Deshalb habe ich dieses Q gepostet und gehofft, dass seitdem einige Lecks aufgetreten sind.
6
Es gibt "mehrere" Algorithmen, aus denen die Vorhersage-API wählen kann, wenn Sie Ihre Daten trainieren / vorhersagen. Der Motor wählt diejenige aus, die er für die beste hält. Einige Benutzer haben um etwas mehr Kontrolle über diese Auswahl gebeten , goo.gl/mod/5EoA , auch wenn der Algorithmus unbekannt ist. Redakteure haben hier über die Eingeweide spekuliert, reddit.com/r/MachineLearning/comments/evdxb/… , aber die Statistik ist für mich verloren.
Hyperslug
2
@hyperslug Poste es als Antwort, es ist ziemlich nützlich, also würde ich es gerne akzeptieren.

Antworten:

11

Google verwendet verschiedene Techniken und Algorithmen des maschinellen Lernens für das Training und die Vorhersage. Die Strategien für das groß angelegte überwachte Lernen: 1. Teilstichprobe 2. Peinlich einige Algorithmen parallelisieren 3. Verteiltes Gefälle 4. Mehrheitsentscheidung 5. Parametergemisch 6. Iteratives Parametergemisch

Sie sollten das Modell mit den verschiedenen Techniken des maschinellen Lernens trainieren und vorhersagen und einen Algorithmus verwenden, um das beste Modell und die beste Vorhersage für die Rückkehr zu bestimmen.

  1. Die Unterabtastung liefert eine schlechtere Leistung
  2. Die Parametermischung verbessert sich, ist aber nicht so gut wie alle Daten
  3. Verteilte Algorithmen geben bessere Klassifikatoren schneller zurück
  4. Iterative Parametermischung erzielt so gut wie alle Daten

Aber natürlich ist es in der API-Dokumentation nicht wirklich klar.

404Dreamer_ML
quelle