Neue revolutionäre Art des Data Mining?

21

Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff:

Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?":

Viele Leute denken, dass sie in Ordnung sind, weil sie In-Sample-Daten zum Training und Out-of-Sample-Daten zum Testen verwenden. Anschließend sortieren sie die Modelle basierend auf der Leistung der Stichprobendaten und wählen die besten Modelle aus, um die Daten außerhalb der Stichprobe zu testen. Die menschliche Tendenz besteht darin, die Modelle zu verwenden, die in den Out-of-Sample-Daten weiterhin gute Ergebnisse erzielen, und diese Modelle für den Handel auszuwählen. Bei dieser Art von Prozess werden die Daten außerhalb der Stichprobe einfach in einen Teil der Trainingsdaten umgewandelt, da die Modelle ausgewählt werden, die im Zeitraum außerhalb der Stichprobe am besten abschnitten. Dies ist einer der häufigsten Fehler, die Menschen machen, und einer der Gründe, warum Data Mining, wie es normalerweise angewendet wird, schreckliche Ergebnisse liefert.

Der Interviewer fragt dann: "Was solltest du stattdessen tun?":

Sie können nach Mustern suchen, bei denen im Durchschnitt alle Modelle außerhalb der Stichprobe weiterhin gute Ergebnisse erzielen. Sie wissen, dass es Ihnen gut geht, wenn der Durchschnitt der Modelle außerhalb der Stichprobe einen signifikanten Prozentsatz der Punktzahl innerhalb der Stichprobe ausmacht. Im Allgemeinen sind Sie wirklich auf dem richtigen Weg, wenn die Ergebnisse außerhalb der Stichprobe mehr als 50 Prozent der Ergebnisse innerhalb der Stichprobe ausmachen. Das Geschäftsmodell von QIM hätte niemals funktioniert, wenn SAS und IBM großartige Prognosemodellierungssoftware entwickelt hätten.


Meine Fragen
Ergibt das irgendeinen Sinn? Was meint er? Haben Sie eine Ahnung - oder vielleicht sogar einen Namen für die vorgeschlagene Methode und einige Referenzen? Oder hat dieser Kerl den heiligen Gral gefunden, den sonst niemand versteht? Er sagt sogar in diesem Interview, dass seine Methode die Wissenschaft möglicherweise revolutionieren könnte ...

vonjd
quelle
4
Bespricht er nicht einfach Fehler aus einer einzelnen Teilstichprobe (Zug und Validierung) und plädiert für einen verschachtelten Quervalidierungsprozess?
B_Miner
12
Ich wäre vorsichtig , wenn jemand tiefe Einsichten beanspruchen würde, die die "Wissenschaft" revolutionieren würden.
Kardinal
2
Hedge-Fonds-Manager, die einen "besseren Modellierungsansatz" fordern und ein bisschen Müll über die Konkurrenz reden? Nichts neues da.
Radfahrer
2
Wow, wie kommt diese Frage zu so vielen positiven Stimmen? Bei der Vorhersage von Stichproben handelt es sich um ein Problem, das am ersten Tag eines Einführungskurses zum maschinellen Lernen erörtert wird. Es gibt diejenigen, die Vorhersagen außerhalb der Stichprobe nicht richtig ansprechen, aber sicherlich niemanden, der auch nur die geringste Ahnung von der Aufgabe der Vorhersage hat.
User4733
Der Handel ist natürlich ein Zeit-Sereis-Problem, was er zu sagen scheint, ist, dass eine Kreuzvalidierung (natürlich unter Verwendung bekannter Daten) das Problem der zeitlichen Veränderung der Struktur nicht lösen kann , also kein heiliger Gral. Aber was er tatsächlich tut, kann nicht gefolgert werden.
kjetil b halvorsen

Antworten:

6

Ergibt das irgendeinen Sinn ? Teilweise.

Was meint er? Bitte fragen Sie ihn.

Haben Sie eine Ahnung - oder vielleicht sogar einen Namen für die vorgeschlagene Methode und einige Referenzen?

Quervalidierung. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Oder hat dieser Kerl den heiligen Gral gefunden, den sonst niemand versteht? Nein.

Er sagt sogar in diesem Interview, dass seine Methode die Wissenschaft möglicherweise revolutionieren könnte ... Vielleicht hat er vergessen, die Referenzen für diese Aussage aufzunehmen ...

image_doctor
quelle
2
Nun, zumindest weist er auf ein echtes Problem hin ...
8

Ich bin mir nicht sicher, ob es andere "Garantie" -Antworten geben wird, aber hier ist meine.

Kreuzvalidierung ist in keiner Weise "neu". Darüber hinaus wird die Kreuzvalidierung nicht verwendet, wenn analytische Lösungen gefunden werden. Beispielsweise verwenden Sie keine Kreuzvalidierung zur Schätzung der Betas, Sie verwenden OLS oder IRLS oder eine andere "optimale" Lösung.

Was ich als eine augenscheinlich offensichtliche Lücke im Zitat sehe, ist kein Hinweis auf den Gedanken, tatsächlich die "besten" Modelle zu überprüfen, um festzustellen, ob sie sinnvoll sind. Im Allgemeinen macht ein gutes Modell auf einer intuitiven Ebene Sinn. Es scheint, als ob die Behauptung lautet, dass der Lebenslauf eine Wunderwaffe für alle Vorhersageprobleme ist. Auf der höheren Ebene der Modellstruktur gibt es auch keine Absprachen - verwenden wir SVM , Regressionsbäume , Boosting , Bagging , OLS , GLMS , GLMNS?. Regularisieren wir Variablen? Wenn das so ist, wie? Gruppieren wir Variablen zusammen? Wollen wir Robustheit gegen Sparsamkeit? Haben wir Ausreißer? Sollten wir die Daten als Ganzes oder in Teilen modellieren? Es gibt zu viele Ansätze, um anhand des Lebenslaufs entschieden zu werden .

Und ein weiterer wichtiger Aspekt ist, welche Computersysteme zur Verfügung stehen? Wie werden die Daten gespeichert und verarbeitet? Fehlt es - wie erklären wir das?

Und hier ist die große Frage: Haben wir genügend gute Daten, um gute Vorhersagen zu treffen? Gibt es bekannte Variablen, die wir nicht in unserem Datensatz haben? Sind unsere Daten repräsentativ für das, was wir vorhersagen möchten?

KK2

npnpnp

Wahrscheinlichkeitslogik
quelle
9
Nizza schimpfen. Wäre viel einfacher zu lesen gewesen, wenn Sie gelegentliche
Großbuchstaben
4

Seine Erklärung zu einem häufigen Fehler im Data Mining erscheint sinnvoll. Seine Erklärung dessen, was er tut, ergibt keinen Sinn. Was meint er, wenn er sagt: "Im Allgemeinen kommen Sie wirklich weiter, wenn die Ergebnisse außerhalb der Stichprobe mehr als 50 Prozent der Ergebnisse innerhalb der Stichprobe ausmachen." Dann lassen ihn SAS und IBM auch nicht besonders schlau aussehen. Menschen können Erfolg auf dem Markt haben, ohne Statistiken zu verstehen, und ein Teil des Erfolgs ist Glück. Es ist falsch, erfolgreiche Geschäftsleute so zu behandeln, als wären sie Guru's of Forecasting.

Michael R. Chernick
quelle
1
Ist nicht ziemlich klar, was mit der zitierten Aussage gemeint war? Je nachdem, wie die Modelle verwendet werden sollen, kann das, was er sagt, viel Sinn ergeben. Zum Beispiel scheint der wichtigste Aspekt der Netflix-Herausforderung die Fähigkeit des "Model Blending" zu sein, solange nur ein sehr geringer Bedarf an Interpretierbarkeit besteht. In diesem Fall kann ein gewisser "Durchschnitt" der Stichprobenleistung der betrachteten Modelle vollständig relevant sein.
Kardinal
@cardinal: Könnten Sie sich aus diesen sehr interessanten Gedanken eine Antwort bilden? Wäre super, danke!
Vonjd
2
@cardinal Vielleicht ist es dir klar, aber erkläre dann den Satz "Du kommst wirklich voran, wenn die Out-of-Sample-Ergebnisse mehr als 50 Prozent der In-Sample-Ergebnisse betragen". Wenn Sie sagen, dass die Emsemble-Mittelung über Modelle hinweg effektiv sein kann, kann ich dem natürlich zustimmen. Es hat sich gezeigt, dass Boosting in vielen Anwendungen gut funktioniert. Aber ich sehe nicht, wo das aus Woodriffs Bemerkungen hervorgeht.
Michael R. Chernick
2
Ich weiß natürlich nicht genau, was Mr. Woodriff behauptet, aber meine Interpretation auf der Grundlage des Ausschnitts hat den Effekt: "[In meinen Anwendungen] Wenn die durchschnittliche Leistung außerhalb der Stichprobe [unter Verwendung einer beliebigen Metrik] Ich halte das für relevant] für mindestens halb so gut wie die In-Sample-Leistung nach dem Anpassen des Modells, dann ist es für meine Anwendung von Bedeutung. " Ich bin Mathematiker / Statistiker, also brauche ich Vorbehalte. Wenn ich ein Hedgefonds-Manager wäre, der eine Anerkennung von außen anstrebt, wäre ich in meinen Ausführungen möglicherweise grandioser und absoluter.
Kardinal
1
@cardinal Nehmen Sie also die Fehlerrate als Leistungsmaß, und interpretieren Sie Woodriff so, dass die Methode gut ist, wenn die Fehlerrate bei Stichproben 5% und die Fehlerrate bei Stichprobenüberschreitung 10% beträgt. Warum nicht einfach auf die Out-of-Sample-Performance schauen, um zu entscheiden? Ich nehme an, das Verhältnis von Leistung außerhalb der Stichprobe zu Leistung innerhalb der Stichprobe sagt etwas darüber aus, wie zuverlässig / unzuverlässig die Schätzung der Fehlerrate innerhalb der Stichprobe ist, aber ich sehe es nicht als Einfluss auf die Bewertung der Leistung des Klassifikators. Ich verstehe immer noch nicht, wo Modellverschmelzung in seine Bemerkungen eingeht.
Michael R. Chernick
4

Sie können nach Mustern suchen, bei denen im Durchschnitt alle Modelle außerhalb der Stichprobe weiterhin gute Ergebnisse erzielen.

Mein Verständnis der Wortmuster hier ist, dass er unterschiedliche Marktbedingungen meint. Ein naiver Ansatz analysiert alle verfügbaren Daten (wir alle wissen, dass mehr Daten besser sind), um das beste Kurvenanpassungsmodell zu trainieren, es dann für alle Daten auszuführen und die ganze Zeit damit zu handeln.

Die erfolgreicheren Hedgefonds-Manager und algorithmischen Händler nutzen ihre Marktkenntnisse. Als konkretes Beispiel kann die erste halbe Stunde einer Handelssitzung volatiler sein. Also werden sie die Modelle mit all ihren Daten ausprobieren, aber nur für diese erste halbe Stunde, und mit all ihren Daten, aber ohne diese erste halbe Stunde. Sie können feststellen, dass zwei ihrer Modelle in der ersten halben Stunde gut abschneiden, aber acht von ihnen verlieren Geld. Während, wenn sie diese erste halbe Stunde ausschließen, sieben ihrer Modelle Geld verdienen, verlieren drei Geld.

Aber anstatt diese beiden Gewinnmodelle zu nehmen und sie in der ersten halben Handelsstunde zu verwenden, sagen sie: Das ist eine schlechte Tageszeit für algorithmisches Handeln, und wir werden überhaupt nicht handeln. Den Rest des Tages werden sie ihre sieben Modelle benutzen. Das heißt, es scheint, dass der Markt mit maschinellem Lernen zu diesen Zeiten leichter vorherzusagen ist, sodass diese Modelle künftig eine höhere Wahrscheinlichkeit haben, zuverlässig zu sein. (Tageszeit ist nicht das einzige Muster; andere beziehen sich normalerweise auf Nachrichtenereignisse, z. B. ist der Markt volatiler, kurz bevor wichtige Wirtschaftszahlen bekannt gegeben werden.)

Das ist meine Interpretation dessen, was er sagt. es mag völlig falsch sein, aber ich hoffe, es ist immer noch ein nützliches Denkanstoß für jemanden.

Darren Cook
quelle
2

Als Finanzprofi kenne ich genug Kontext, dass die Aussage keine Mehrdeutigkeit darstellt. Finanzielle Zeitreihen sind häufig durch Regimewechsel, Strukturbrüche und Konzeptverschiebungen gekennzeichnet, sodass die in anderen Branchen praktizierte Quervalidierung bei Finanzanwendungen nicht so erfolgreich ist. Im zweiten Teil bezieht er sich auf eine Finanzmetrik, entweder die Rendite auf die Sharpe-Ratio (Rendite im Zähler), nicht die MSE oder eine andere Verlustfunktion. Wenn die In-Sample-Strategie eine Rendite von 10% erzielt, kann sie im realen Handel durchaus realistisch nur eine Rendite von 5% erzielen. Der "revolutionäre" Teil handelt mit Sicherheit von seinem eigenen Analyseansatz, nicht von den Zitaten.

onlyvix.blogspot.com
quelle
Eine Frage an onlyvix: Kennen Sie eine Arbeit, bei der Ihre Finanzmetrik als Werkzeug für die Parameteroptimierung verwendet wird, dh die direkte Optimierung von Parametern durch Maximierung dieser Metrik, anstatt die maximale Wahrscheinlichkeit zu verwenden?
kjetil b halvorsen
@kbh ist nicht meine finanzielle Metrik - Optimierung für Sharpe Ratio ist sehr verbreitet. Ein Beispiel ganz oben auf meiner Liste ssrn.com/abstract=962461 - Es wird kein genaues statistisches Modell entwickelt, sondern Handelsregeln, die (allgemein ausgedrückt) dazu dienen, die Rendite zu maximieren und das Risiko zu minimieren.
onlyvix.blogspot.com