Data Science vs Operations Research

11

Die allgemeine Frage lautet, wie der Titel schon sagt:

  • Was ist der Unterschied zwischen DS und OR / Optimierung?

Auf konzeptioneller Ebene verstehe ich, dass DS versucht, Wissen aus den verfügbaren Daten zu extrahieren und hauptsächlich statistische Techniken des maschinellen Lernens verwendet. Andererseits verwendet OR die Daten, um Entscheidungen basierend auf den Daten zu treffen , beispielsweise durch Optimieren einer Zielfunktion (Kriterium) über die Daten (Eingabe).

Ich frage mich, wie diese beiden Paradigmen verglichen werden.

  • Ist eine Teilmenge der anderen?
  • Betrachten sie komplementäre Felder?
  • Gibt es Beispiele, bei denen ein Feld das andere ergänzt oder bei der Konjunktion verwendet wird?

Insbesondere interessiert mich Folgendes:

Gibt es ein Beispiel, in dem OP-Techniken verwendet werden, um eine Data Science-Frage / ein Data Science-Problem zu lösen?

PsySp
quelle
3
Ich bin mir nicht sicher, ob dies wirklich eine Frage der Informatik ist, aber ich nehme an, sie ist nah genug. Ich habe den Teil darüber herausgearbeitet, was die Leute auf der einen Seite über die andere denken, da dies eine reine Ansichtssache zu sein scheint.
David Richerby
@ DavidRicherby danke. Ich stimme Ihnen zu, dass dies eine Ansichtssache sein könnte. Traditionell werden beide Disziplinen aus der CS-Community unterrichtet und sind aus dieser hervorgegangen. Ich nehme an, dies ist der richtige Ort, um zu fragen.
PsySp
@ DW danke. Ich habe die Artikel gelesen und um ehrlich zu sein, sehe ich keine Diskussion über Überschneidungen und / oder Unterschiede zwischen den beiden genannten Bereichen. Insbesondere, wie das eine das andere ergänzt.
PsySp
1
Bei Data Science geht es hauptsächlich darum, Informationen über Daten zu finden. Bei Operations Research geht es hauptsächlich darum, die Entscheidungsfindung zu verbessern. Sie können OR häufig als Methoden betrachten, um eine optimale Richtlinie für die Entscheidungsfindung zu finden. Einige im OP verwendete Methoden können in der CS-Community als Reinforcement Learning-Methoden klassifiziert werden, obwohl nicht alle OP-Probleme von diesem Typ sind.
Spektr

Antworten:

9

Während sowohl Operations Research als auch Data Science eine große Anzahl von Themen und Bereichen abdecken, werde ich versuchen, meine Perspektive auf das zu geben, was ich als die repräsentativsten und wichtigsten Teile von jedem betrachte.

Wie andere bereits betont haben, befasst sich der Großteil der Operations Research in erster Linie mit Entscheidungen . Während es viele verschiedene Möglichkeiten gibt, Entscheidungen zu treffen, konzentrieren sich die wichtigsten Teile des OP (meiner Meinung nach) auf die Modellierung von Entscheidungsproblemen in einem mathematischen Programmierrahmen. In solchen Frameworks verfügen Sie normalerweise über eine Reihe von Entscheidungsvariablen, Einschränkungen für diese Variablen und eine Zielfunktion, die von Ihren Entscheidungsvariablen abhängt, die Sie minimieren oder maximieren möchten. Wenn die Entscheidungsvariablen Werte in annehmen können , sind die Einschränkungen lineare Ungleichungen über Ihre Entscheidungsvariablen, und die Zielfunktion ist eine lineare Funktion der Entscheidungsvariablen. Dann haben Sie ein lineares ProgrammR.- das Hauptarbeitspferd von OR in den letzten 60 Jahren. Wenn Sie andere Arten von Zielfunktionen oder Einschränkungen haben, findet man sich im Bereich der ganzzahligen Programmierung , quadratische Programmierung , semidefinit Programmierung , etc ...

Data Science hingegen befasst sich hauptsächlich mit Schlussfolgerungen. Hier beginnen Sie normalerweise mit einem großen Datenstapel und möchten etwas über Daten ableiten, die Sie noch nicht in Ihrem großen Datenstapel gesehen haben. Die typischen Dinge, die Sie hier sehen, sind: 1) Der große Datenstapel repräsentiert die vergangenen Ergebnisse von zwei verschiedenen Optionen und Sie möchten wissen, welche Option die besten Ergebnisse liefert. 2) Der große Datenstapel repräsentiert eine Zeit und Sie möchten wissen, wie sich diese Zeitreihen in die Zukunft erstrecken werden. 3) Der große Datenstapel stellt einen beschrifteten Satz von Beobachtungen dar und Sie möchten Beschriftungen für neue, unbeschriftete Beobachtungen ableiten. Die ersten beiden Beispiele fallen genau in klassische statistische Bereiche (Hypothesentest bzw. Zeitreihenprognose), während das dritte Beispiel meiner Meinung nach enger mit modernen Themen des maschinellen Lernens verbunden ist (Klassifizierung).

Meiner Meinung nach sind Operations Research und Data Science also meist orthogonale Disziplinen, obwohl es einige Überschneidungen gibt. Insbesondere denke ich, dass Zeitreihenprognosen im OP in einer nicht trivialen Menge erscheinen; Es ist einer der bedeutenderen, nicht auf mathematischer Programmierung basierenden Teile von OR. In Operations Research wenden Sie sich, wenn Sie eine bekannte Beziehung zwischen Ein- und Ausgängen haben. In Data Science wenden Sie sich an, wenn Sie versuchen, diese Beziehung zu bestimmen (für eine Definition von Eingabe und Ausgabe).

mhum
quelle
Vielen Dank für die klare Antwort. Ich habe mich gefragt, ob man zum Beispiel irgendwelche OP-Techniken verwenden könnte, um DS-Probleme zu lösen. Ich würde mich für ein solches Beispiel interessieren, aber aufgrund Ihrer Antwort bezweifle ich, dass es eines gibt.
PsySp
@ Psysp Eh, vielleicht? Ich kann mir nichts vorstellen, aber das ist alles andere als endgültig.
mhum
1
Ich denke nicht, dass die Trennung zwischen OR und DS streng ist, wie Sie glauben, aber dies könnte daran liegen, dass ich Themen als maschinelles Lernen und Datenerfassung als Teile von DS betrachte, anstatt DS als Synonym für Statistik zu betrachten. (Da DS ein Schlagwort ist, hat es meines Wissens leider keine allgemein akzeptierte Definition.) Die Aufgaben der Entscheidung und Schlussfolgerung müssen sich jedoch nicht gegenseitig ausschließen. Maschinelles Lernen ist genau das Feld, in dem beide kombiniert werden: Manchmal müssen kluge Entscheidungen getroffen werden, um anständige Schlussfolgerungen zu ziehen, manchmal werden kluge Schlussfolgerungen für gute Entscheidungen verwendet.
Diskrete Eidechse
@ Discretelizard Klar, ich stimme bis zu einem gewissen Grad zu. Ich präsentiere eine ziemlich starke Unterteilung (vielleicht fast eine Karikatur?) Und konzentriere mich auf die Kernteile jedes Feldes, um die Unterschiede in den Arten von Problemen hervorzuheben, auf die jedes Feld normalerweise abgestimmt ist. Die Kanten beider Felder können ziemlich unscharf sein (insbesondere in DS, das viel neuer ist) und es gibt dort wahrscheinlich mehr Überlappungen. Ich stimme auch zu, dass ein Großteil des Mainstreams von DS ML-Inhalte enthält, aber ich war mir nicht sicher, wie genau DS von ML getrennt ist.
mhum
4

Dies ist keine vollständige Antwort, da mhum's die unterschiedlichen Ziele von OR und DS recht gut gegenüberstellt.

Ich möchte vielmehr auf Ihren Kommentar eingehen:

Ich habe mich gefragt, ob man zum Beispiel irgendwelche OP-Techniken verwenden könnte, um DS-Probleme zu lösen.

Die Antwort ist ja. Das deutlichste Beispiel, das mir in den Sinn kommt, sind Support Vector Machines (SVMs) .

Um ein SVM-Modell an einige Daten anzupassen (dies muss erfolgen, bevor Sie daraus Vorhersagen ableiten können), muss das folgende Optimierungsproblem gelöst werden:

Maximieren Sie das Duale,

G(ein)=ich=1mαich- -12ich=1mj=1mαichαjyichyjxichT.xj,

vorbehaltlich der Einschränkungen

0αichC.,ich=1nyichαich=0

Dies ist ein eingeschränktes Optimierungsproblem, genau wie viele auf dem Gebiet des OP, und es wird unter Verwendung quadratischer Programmiermethoden oder innerer Punktmethoden gelöst. Diese sind im Allgemeinen eher mit dem Bereich OR als mit DS verbunden, dies ist jedoch ein Beispiel für ihre breitere Anwendbarkeit.

Im Allgemeinen ist die Optimierung der Schlüssel zu vielen der im Bereich der DS verwendeten statistischen und maschinellen Lernmodelle, da der Prozess des Trainings dieser Modelle typischerweise als Minimierungsproblem formuliert werden kann, das eine Verlust- / Bedauernsfunktion beinhaltet - aus den bescheidenen Jahrhunderten lineares Regressionsmodell für das neueste neuronale Netzwerk mit tiefem Lernen.

Eine gute Referenz zu SVMs ist Bishop .

AG
quelle
2

Als Stratege hatte ich die Gelegenheit, mit beiden Seiten der Disziplin zusammenzuarbeiten. Bei dem Versuch zu erklären, was OR und DS für einen qualitativen MBA-Manager sind, meine (übermäßig) vereinfachte einzeilige Einführung für jede

ODER: Ökonomen, die wissen, wie man
DS codiert: Statistiker, die wissen, wie man codiert.

In der Praxis, wie die beiden Gruppen normalerweise zusammenkommen: Die OP-Seite entwickelt das Entscheidungsmodell, und die DS-Seite ermittelt die geeignete Datenimplementierung, um das Modell zu speisen.

Jeder für sich wird sich auf die theoretischen Traditionen seiner Disziplinen stützen - gemeinsam führen sie Experimente durch, um die Daten zu strukturieren und das Modell zu verfeinern, um zu den wahren Erkenntnissen zu gelangen, die für optimale Entscheidungen erforderlich sind. Wenn jeder den anderen kennenlernt, konvergieren sein Denken und seine Sprache normalerweise.

user88056
quelle
1
Ich verstehe die praktische Beschreibung von DS als "Statistiker, die codieren", aber die Beschreibung für OR erscheint mir etwas seltsam. OR umfasst Logistik- und damit verbundene Routingprobleme. Das sieht für mich nicht wirklich nach einem natürlichen Ort für einen Ökonomen aus. Vielleicht könnten Sie näher erläutern, warum OP in der Praxis von Ökonomen durchgeführt wird?
Diskrete Eidechse
1
@Discretelizard Ich bezweifle nicht, dass Ökonomen OP machen, aber es gibt, wie Sie sagen, eine Menge OP, die nichts mit Ökonomie zu tun haben und von Informatikern, Mathematikern und anderen gemacht werden.
David Richerby
0

Die Datenwissenschaft ist ein weites Feld, das sich allgemein mit Daten befasst. Wenn dies vage klingt, ist es normal, weil es wirklich ist. Es ist seit einigen Jahren ein Modewort. Im Wesentlichen wird versucht, einen Weg zu finden, um Daten auszunutzen: Was kann ich mit meinen Daten tun (welche Erkenntnisse kann ich daraus gewinnen?).

Operations Research ist die Wissenschaft der mathematischen Optimierung: Sie modellieren ein Problem in „Gleichungen“, lösen dieses mathematische Modell und übersetzen die Lösungen zurück in Ihre anfängliche Problemstellung. Es ist ein Werkzeug, um Entscheidungen zu treffen: Was soll / kann ich tun, um dies oder das zu erreichen?

Viele geschäftliche Probleme können als Optimierungsproblem angesehen werden. Angesichts der Tatsache, dass ich angesichts der Ressourcenbeschränkungen versuche, meinen Umsatz zu maximieren, wie genau würde ich mein Geschäft betreiben und welche Werte ich für meine Entscheidungsvariablen festlegen sollte. Probleme wie Terminplanung, Anlagenplanung, Lieferkettenmanagement usw. nutzen alle Optimierungstechniken.

Die Portfoliooptimierung ist auch ein klassisches Beispiel für die Optimierung. Angenommen, ich kann in mehrere verschiedene Vermögenswerte in meinem Portfolio mit jeweils nicht deterministischen Renditen investieren. Wie soll ich mein Portfolio ausgleichen, um das Risiko meines Gesamtportfolios zu minimieren und gleichzeitig die monetäre Rendite aufrechtzuerhalten? In dieser Einstellung wird die Zielfunktion häufig zum Risiko / zur Varianz des Portfolios, und die Einschränkungen sind die erforderliche Rendite der Investition sowie der Geldbetrag, über den Sie verfügen.

Rameez
quelle
3
Sie listen nur kurze Zusammenfassungen beider Felder auf. Diese Antwort geht nicht auf die Unterschiede und / oder Ähnlichkeiten zwischen DS und OR ein, für die die Frage speziell gestellt wurde. Sie können Ihre Antwort verbessern, indem Sie sich auf diesen Teil konzentrieren
Diskrete Eidechse
-1

Wenn Sie ML und AI, die von ML gesteuert werden, als Teil von Data Science zählen (was einige Leute nach meiner Erfahrung tun und andere nicht, enthält beispielsweise das professionelle Microsoft-Programm in AI Schlüsselaspekte von Data Science + Maschinelles Lernen (sowohl mit DL als auch mit RL) ) Während die Higher School of Economics praktisch dieselben fortgeschrittenen Teile des Microsoft-Lehrplans präsentiert wie Advanced Machine Learning), gibt es in der Mathematik viele Ähnlichkeiten, die in beiden Bereichen verwendet werden. Zum Beispiel: Nichtlineare Programmierung (Lagrange-Multiplikatoren, KKT-Bedingungen ...) -> zur Ableitung von Support-Vektor-Maschinen ... Ökonometrie, die hauptsächlich auf Regressionen basiert ---> Regressionen sind ein wesentlicher Bestandteil von Data Scinece im Allgemeinen und genauer gesagt Betreutes Lernen ... Statistik (normalerweise im OP-Lehrplan enthalten) ---> Schlüssel für Data Science und maschinelles Lernen ... Stochastische Prozesse ---> sehr wichtig beim Reinforcement Learning ... Dynamische Programmierung ---> wieder beim Reinforcement Learning zu finden ... Ich würde also sagen, dass es einige Ähnlichkeiten mit Data Science im Allgemeinen und ziemlich ähnliche Ähnlichkeiten mit ML gibt. Natürlich sind die Ziele dieser Disziplinen unterschiedlich, aber es gibt viele Ähnlichkeiten in der Mathematik, die in diesen Disziplinen verwendet wird.

Goran Mabic
quelle
Wie beantwortet es die Frage?
Evil