Die allgemeine Frage lautet, wie der Titel schon sagt:
- Was ist der Unterschied zwischen DS und OR / Optimierung?
Auf konzeptioneller Ebene verstehe ich, dass DS versucht, Wissen aus den verfügbaren Daten zu extrahieren und hauptsächlich statistische Techniken des maschinellen Lernens verwendet. Andererseits verwendet OR die Daten, um Entscheidungen basierend auf den Daten zu treffen , beispielsweise durch Optimieren einer Zielfunktion (Kriterium) über die Daten (Eingabe).
Ich frage mich, wie diese beiden Paradigmen verglichen werden.
- Ist eine Teilmenge der anderen?
- Betrachten sie komplementäre Felder?
- Gibt es Beispiele, bei denen ein Feld das andere ergänzt oder bei der Konjunktion verwendet wird?
Insbesondere interessiert mich Folgendes:
Gibt es ein Beispiel, in dem OP-Techniken verwendet werden, um eine Data Science-Frage / ein Data Science-Problem zu lösen?
optimization
data-mining
PsySp
quelle
quelle
Antworten:
Während sowohl Operations Research als auch Data Science eine große Anzahl von Themen und Bereichen abdecken, werde ich versuchen, meine Perspektive auf das zu geben, was ich als die repräsentativsten und wichtigsten Teile von jedem betrachte.
Wie andere bereits betont haben, befasst sich der Großteil der Operations Research in erster Linie mit Entscheidungen . Während es viele verschiedene Möglichkeiten gibt, Entscheidungen zu treffen, konzentrieren sich die wichtigsten Teile des OP (meiner Meinung nach) auf die Modellierung von Entscheidungsproblemen in einem mathematischen Programmierrahmen. In solchen Frameworks verfügen Sie normalerweise über eine Reihe von Entscheidungsvariablen, Einschränkungen für diese Variablen und eine Zielfunktion, die von Ihren Entscheidungsvariablen abhängt, die Sie minimieren oder maximieren möchten. Wenn die Entscheidungsvariablen Werte in annehmen können , sind die Einschränkungen lineare Ungleichungen über Ihre Entscheidungsvariablen, und die Zielfunktion ist eine lineare Funktion der Entscheidungsvariablen. Dann haben Sie ein lineares ProgrammR. - das Hauptarbeitspferd von OR in den letzten 60 Jahren. Wenn Sie andere Arten von Zielfunktionen oder Einschränkungen haben, findet man sich im Bereich der ganzzahligen Programmierung , quadratische Programmierung , semidefinit Programmierung , etc ...
Data Science hingegen befasst sich hauptsächlich mit Schlussfolgerungen. Hier beginnen Sie normalerweise mit einem großen Datenstapel und möchten etwas über Daten ableiten, die Sie noch nicht in Ihrem großen Datenstapel gesehen haben. Die typischen Dinge, die Sie hier sehen, sind: 1) Der große Datenstapel repräsentiert die vergangenen Ergebnisse von zwei verschiedenen Optionen und Sie möchten wissen, welche Option die besten Ergebnisse liefert. 2) Der große Datenstapel repräsentiert eine Zeit und Sie möchten wissen, wie sich diese Zeitreihen in die Zukunft erstrecken werden. 3) Der große Datenstapel stellt einen beschrifteten Satz von Beobachtungen dar und Sie möchten Beschriftungen für neue, unbeschriftete Beobachtungen ableiten. Die ersten beiden Beispiele fallen genau in klassische statistische Bereiche (Hypothesentest bzw. Zeitreihenprognose), während das dritte Beispiel meiner Meinung nach enger mit modernen Themen des maschinellen Lernens verbunden ist (Klassifizierung).
Meiner Meinung nach sind Operations Research und Data Science also meist orthogonale Disziplinen, obwohl es einige Überschneidungen gibt. Insbesondere denke ich, dass Zeitreihenprognosen im OP in einer nicht trivialen Menge erscheinen; Es ist einer der bedeutenderen, nicht auf mathematischer Programmierung basierenden Teile von OR. In Operations Research wenden Sie sich, wenn Sie eine bekannte Beziehung zwischen Ein- und Ausgängen haben. In Data Science wenden Sie sich an, wenn Sie versuchen, diese Beziehung zu bestimmen (für eine Definition von Eingabe und Ausgabe).
quelle
Dies ist keine vollständige Antwort, da mhum's die unterschiedlichen Ziele von OR und DS recht gut gegenüberstellt.
Ich möchte vielmehr auf Ihren Kommentar eingehen:
Die Antwort ist ja. Das deutlichste Beispiel, das mir in den Sinn kommt, sind Support Vector Machines (SVMs) .
Um ein SVM-Modell an einige Daten anzupassen (dies muss erfolgen, bevor Sie daraus Vorhersagen ableiten können), muss das folgende Optimierungsproblem gelöst werden:
Dies ist ein eingeschränktes Optimierungsproblem, genau wie viele auf dem Gebiet des OP, und es wird unter Verwendung quadratischer Programmiermethoden oder innerer Punktmethoden gelöst. Diese sind im Allgemeinen eher mit dem Bereich OR als mit DS verbunden, dies ist jedoch ein Beispiel für ihre breitere Anwendbarkeit.
Im Allgemeinen ist die Optimierung der Schlüssel zu vielen der im Bereich der DS verwendeten statistischen und maschinellen Lernmodelle, da der Prozess des Trainings dieser Modelle typischerweise als Minimierungsproblem formuliert werden kann, das eine Verlust- / Bedauernsfunktion beinhaltet - aus den bescheidenen Jahrhunderten lineares Regressionsmodell für das neueste neuronale Netzwerk mit tiefem Lernen.
Eine gute Referenz zu SVMs ist Bishop .
quelle
Als Stratege hatte ich die Gelegenheit, mit beiden Seiten der Disziplin zusammenzuarbeiten. Bei dem Versuch zu erklären, was OR und DS für einen qualitativen MBA-Manager sind, meine (übermäßig) vereinfachte einzeilige Einführung für jede
ODER: Ökonomen, die wissen, wie man
DS codiert: Statistiker, die wissen, wie man codiert.
In der Praxis, wie die beiden Gruppen normalerweise zusammenkommen: Die OP-Seite entwickelt das Entscheidungsmodell, und die DS-Seite ermittelt die geeignete Datenimplementierung, um das Modell zu speisen.
Jeder für sich wird sich auf die theoretischen Traditionen seiner Disziplinen stützen - gemeinsam führen sie Experimente durch, um die Daten zu strukturieren und das Modell zu verfeinern, um zu den wahren Erkenntnissen zu gelangen, die für optimale Entscheidungen erforderlich sind. Wenn jeder den anderen kennenlernt, konvergieren sein Denken und seine Sprache normalerweise.
quelle
Die Datenwissenschaft ist ein weites Feld, das sich allgemein mit Daten befasst. Wenn dies vage klingt, ist es normal, weil es wirklich ist. Es ist seit einigen Jahren ein Modewort. Im Wesentlichen wird versucht, einen Weg zu finden, um Daten auszunutzen: Was kann ich mit meinen Daten tun (welche Erkenntnisse kann ich daraus gewinnen?).
Operations Research ist die Wissenschaft der mathematischen Optimierung: Sie modellieren ein Problem in „Gleichungen“, lösen dieses mathematische Modell und übersetzen die Lösungen zurück in Ihre anfängliche Problemstellung. Es ist ein Werkzeug, um Entscheidungen zu treffen: Was soll / kann ich tun, um dies oder das zu erreichen?
Viele geschäftliche Probleme können als Optimierungsproblem angesehen werden. Angesichts der Tatsache, dass ich angesichts der Ressourcenbeschränkungen versuche, meinen Umsatz zu maximieren, wie genau würde ich mein Geschäft betreiben und welche Werte ich für meine Entscheidungsvariablen festlegen sollte. Probleme wie Terminplanung, Anlagenplanung, Lieferkettenmanagement usw. nutzen alle Optimierungstechniken.
Die Portfoliooptimierung ist auch ein klassisches Beispiel für die Optimierung. Angenommen, ich kann in mehrere verschiedene Vermögenswerte in meinem Portfolio mit jeweils nicht deterministischen Renditen investieren. Wie soll ich mein Portfolio ausgleichen, um das Risiko meines Gesamtportfolios zu minimieren und gleichzeitig die monetäre Rendite aufrechtzuerhalten? In dieser Einstellung wird die Zielfunktion häufig zum Risiko / zur Varianz des Portfolios, und die Einschränkungen sind die erforderliche Rendite der Investition sowie der Geldbetrag, über den Sie verfügen.
quelle
Wenn Sie ML und AI, die von ML gesteuert werden, als Teil von Data Science zählen (was einige Leute nach meiner Erfahrung tun und andere nicht, enthält beispielsweise das professionelle Microsoft-Programm in AI Schlüsselaspekte von Data Science + Maschinelles Lernen (sowohl mit DL als auch mit RL) ) Während die Higher School of Economics praktisch dieselben fortgeschrittenen Teile des Microsoft-Lehrplans präsentiert wie Advanced Machine Learning), gibt es in der Mathematik viele Ähnlichkeiten, die in beiden Bereichen verwendet werden. Zum Beispiel: Nichtlineare Programmierung (Lagrange-Multiplikatoren, KKT-Bedingungen ...) -> zur Ableitung von Support-Vektor-Maschinen ... Ökonometrie, die hauptsächlich auf Regressionen basiert ---> Regressionen sind ein wesentlicher Bestandteil von Data Scinece im Allgemeinen und genauer gesagt Betreutes Lernen ... Statistik (normalerweise im OP-Lehrplan enthalten) ---> Schlüssel für Data Science und maschinelles Lernen ... Stochastische Prozesse ---> sehr wichtig beim Reinforcement Learning ... Dynamische Programmierung ---> wieder beim Reinforcement Learning zu finden ... Ich würde also sagen, dass es einige Ähnlichkeiten mit Data Science im Allgemeinen und ziemlich ähnliche Ähnlichkeiten mit ML gibt. Natürlich sind die Ziele dieser Disziplinen unterschiedlich, aber es gibt viele Ähnlichkeiten in der Mathematik, die in diesen Disziplinen verwendet wird.
quelle