Diese Frage wurde bereits vor einigen Jahren im Lebenslauf gestellt. Angesichts von 1) um Größenordnungen besserer Computertechnologie (z. B. Parallel Computing, HPC usw.) und 2) neuerer Techniken, z.
Erstens einen Kontext. Nehmen wir an, das Ziel ist nicht das Testen von Hypothesen, nicht das Schätzen von Effekten, sondern die Vorhersage eines nicht gesehenen Testsatzes. Daher wird keinem interpretierbaren Nutzen ein Gewicht beigemessen. Zweitens können Sie nicht ausschließen, dass ein Prädiktor für die Betrachtung des Themas relevant ist, d. H. Sie scheinen alle einzeln oder in Kombination mit anderen Prädiktoren plausibel. Drittens sind Sie mit (Hunderten von) Millionen von Prädiktoren konfrontiert. Viertens: Nehmen wir an, Sie haben mit unbegrenztem Budget Zugriff auf AWS, sodass die Rechenleistung keine Einschränkung darstellt.
Die üblichen Gründe für die variable Auswahl sind 1) Effizienz; Schnelleres Anpassen eines kleineren Modells und kostengünstigeres Sammeln weniger Prädiktoren. 2) Interpretation; Die Kenntnis der "wichtigen" Variablen gibt einen Einblick in den zugrunde liegenden Prozess [1].
Es ist mittlerweile allgemein bekannt, dass viele Variablenauswahlmethoden ineffektiv und oftmals geradezu gefährlich sind (z. B. schrittweise Vorwärtsregression) [2].
Zweitens sollte man die Liste der Prädiktoren nicht einschränken müssen, wenn das ausgewählte Modell ein gutes Modell ist. Das Model sollte es für Sie tun. Ein gutes Beispiel ist Lasso, das allen irrelevanten Variablen einen Nullkoeffizienten zuweist.
Mir ist bewusst, dass einige Leute die Verwendung eines "Elefanten" -Modells befürworten, dh. Wirf alle erdenklichen Prädiktoren in die Passung und laufe mit ihr [2].
Gibt es einen fundamentalen Grund für die Variablenauswahl, wenn das Ziel die Vorhersagegenauigkeit ist?
[1] Reunanen, J. (2003). Überanpassung beim Vergleichen von Variablenauswahlmethoden. The Journal of Machine Learning Research, 3, 1371-1382.
[2] Harrell, F. (2015). Regressionsmodellierungsstrategien: mit Anwendungen auf lineare Modelle, logistische und ordinale Regression und Überlebensanalyse. Springer.
[3] Taylor, J. & Tibshirani, RJ (2015). Statistisches Lernen und selektive Schlussfolgerung. Verfahren der National Academy of Sciences, 112 (25), 7629-7634.
[4] Zhou, J., Foster, D., Stine, R. & Ungar, L. (2005, August). Auswahl der Streaming-Funktionen mithilfe von Alpha-Investing. In Proceedings der elften internationalen ACM SIGKDD-Konferenz zu Knowledge Discovery in Data Mining (S. 384-393). ACM.
Antworten:
Es gibt seit Jahren Gerüchte, dass Google alle verfügbaren Funktionen für die Erstellung seiner Vorhersagealgorithmen nutzt. Bisher sind jedoch keine Haftungsausschlüsse, Erklärungen oder Whitepapers aufgetaucht, die dieses Gerücht klarstellen und / oder bestreiten. Nicht einmal ihre veröffentlichten Patente tragen zum Verständnis bei. Daher weiß nach meinem besten Wissen niemand außerhalb von Google, was er tut.
/ * Update im September 2019, ein Google Tensorflow-Evangelist hat in einer Präsentation berichtet, dass Google-Ingenieure regelmäßig über 5 Milliarden Parameter für die aktuelle Version von PageRank auswerten . * /
Wie das OP feststellt, besteht eines der größten Probleme bei der prädiktiven Modellierung in der Verknüpfung von klassischem Hypothesentest und sorgfältiger Modellspezifikation mit reinem Data Mining. Der klassisch Ausgebildete kann ziemlich dogmatisch über die Notwendigkeit von "Strenge" in der Modellgestaltung und -entwicklung werden. Tatsache ist, dass das klassische Framework, wenn es mit einer großen Anzahl von Kandidaten-Prädiktoren und mehreren möglichen Zielen oder abhängigen Variablen konfrontiert wird, weder funktioniert, noch eine nützliche Anleitung bietet. Zahlreiche neuere Veröffentlichungen beschreiben dieses Dilemma aus Chattopadhyay und Lipsons brillantem Papier Data Smashing: Aufdecken der lauernden Reihenfolge in Daten http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Zum letztjährigen VRE-Papier über Probleme der Vorhersagepolitik von Kleinberg et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 Dies macht Data Mining und Prognosen zu nützlichen Instrumenten für die wirtschaftspolitische Entscheidungsfindung. "
Tatsache ist, dass die größere Frage in Höhe von 64.000 US-Dollar die weitreichende Veränderung des Denkens und der Herausforderungen gegenüber dem klassischen Rahmen für Hypothesentests ist, die zum Beispiel in diesem Edge.org- Symposium über "veraltetes" wissenschaftliches Denken enthalten sind. Https://www.edge.org/ responses / what-scientific-idea-is-ready-for-pensioned sowie dieser kürzlich erschienene Artikel von Eric Beinhocker über die "New Economics", der einige radikale Vorschläge zur Integration verschiedenster Disziplinen wie Verhaltensökonomie, Komplexitätstheorie und Vorhersagemodell enthält Entwicklung, Netzwerk- und Portfoliotheorie als Plattform für die Implementierung und Umsetzung von Richtlinien https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Selbstverständlich gehen diese Fragen weit über rein wirtschaftliche Belange hinaus und legen den Schluss nahe, dass sich die wissenschaftlichen Paradigmen grundlegend ändern. Die sich wandelnden Ansichten sind ebenso grundlegend wie die Unterscheidung zwischen reduktionistischen, Occam's Razor-like-model-building und Epicurus 'expansivem Prinzip der Fülle oder mehrere Erklärungen, die ungefähr besagen, dass, wenn mehrere Ergebnisse etwas erklären, sie alle beibehalten ... https: // de. wikipedia.org/wiki/Principle_of_plenitude
Natürlich sind Leute wie Beinhocker völlig frei von praktischen Bedenken hinsichtlich angewandter statistischer Lösungen für dieses sich weiterentwickelnde Paradigma. Für die kniffligen Fragen der Auswahl ultrahoher dimensionaler Variablen ist das OP relativ unspezifisch in Bezug auf praktikable Ansätze zur Modellbildung, bei denen möglicherweise Lasso, LAR, schrittweise Algorithmen oder "Elefantenmodelle" zum Einsatz kommen, die alle verfügbaren Informationen verwenden. Die Realität ist, dass Sie selbst mit AWS oder einem Supercomputer nicht alle verfügbaren Informationen gleichzeitig nutzen können - es ist einfach nicht genug RAM vorhanden, um alles zu laden. zB die Entdeckung des NSF in komplexen oder massiven Datensätzen: Gemeinsame statistische ThemenAlgorithmen für massives Data Mining zu "teilen und zu erobern", z. B. Wang et al., A Survey of Statistical Methods und Computing for Big Data http://arxiv.org/pdf/1502.07989.pdf sowie Leskovec et al Buch Mining von massiven Datensätzen http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Inzwischen gibt es buchstäblich Hunderte, wenn nicht Tausende von Artikeln, die sich mit verschiedenen Aspekten dieser Herausforderungen befassen, und die alle ganz unterschiedliche Analyse-Engines als Kern der Divide-and-Conquer-Algorithmen vorschlagen. unbeaufsichtigte "Deep Learning" -Modelle; Zufallsmatrixtheorie angewendet auf massive Kovarianzkonstruktion; Bayes'sche Tensormodelle für die klassische, überwachte logistische Regression und mehr. Vor ungefähr fünfzehn Jahren konzentrierte sich die Debatte hauptsächlich auf Fragen nach den relativen Vorzügen hierarchischer Bayes'scher Lösungen im Vergleich zu häufig auftretenden endlichen Mischungsmodellen. In einem Artikel, der sich mit diesen Problemen befasst, haben Ainslie et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfkamen zu dem Schluss, dass die unterschiedlichen theoretischen Ansätze in der Praxis weitgehend gleichwertige Ergebnisse erbrachten, mit Ausnahme von Problemen mit spärlichen und / oder hochdimensionalen Daten, bei denen HB-Modelle den Vorteil hatten. Mit dem Aufkommen von D & C-Problemumgehungen werden heute alle Arbitrage-HB-Modelle eliminiert, die in der Vergangenheit möglicherweise verwendet wurden.
Die Grundlogik dieser D & C-Problemumgehungen sind im Großen und Ganzen Erweiterungen von Breimans berühmter Zufallsforsttechnik, die sich auf das bootstrapped Resampling von Beobachtungen und Merkmalen stützte. Breiman arbeitete Ende der 90er Jahre auf einer einzigen CPU, als massive Daten ein paar Dutzend Auftritte und ein paar tausend Features bedeuteten. Auf den heutigen massiv parallelen Multi-Core-Plattformen können Algorithmen ausgeführt werden, die Terabytes an Daten analysieren, die zig Millionen Features enthalten, und in wenigen Stunden Millionen von "RF" -Minimodellen erstellen.
Daraus ergeben sich viele wichtige Fragen. Es ist zu befürchten, dass die Genauigkeit aufgrund der Annäherung dieser Problemumgehungen abnimmt. Dieses Problem wurde von Chen und Xie in ihrem Papier, adressiert ein Split-and-Conquer Ansatz zur Analyse von Außerordentlich großen Daten http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf wo sie zu dem Schluss dass die Annäherungen sich nicht von den "Vollinformations" -Modellen unterscheiden.
Ein zweites Problem, das meines Wissens in der Literatur nicht ausreichend behandelt wurde, hat damit zu tun, was mit den Ergebnissen (dh den "Parametern") von potenziell Millionen prädiktiver Minimodelle nach der Umgehung des Problems gemacht wird wurden aufgerollt und zusammengefasst. Mit anderen Worten, wie kann man mit diesen Ergebnissen etwas so Einfaches wie das "Scoring" neuer Daten ausführen? Sollen die Mini-Modell-Koeffizienten gespeichert und gespeichert werden oder wird der Algorithmus für neue Daten einfach erneut ausgeführt?
In seinem Buch " Numbers Rule Your World" beschreibt Kaiser Fung das Dilemma, dem sich Netflix gegenübersieht, wenn ein Ensemble von nur 104 Modellen von den Gewinnern ihres Wettbewerbs übergeben wird. Zwar hatten die Gewinner die MSE im Vergleich zu allen anderen Wettbewerbern auf ein Minimum reduziert, dies führte jedoch nur zu einer Verbesserung der Genauigkeit um einige Dezimalstellen in der 5-Punkte-Likert-Bewertungsskala, die von ihrem Filmempfehlungssystem verwendet wurde. Darüber hinaus kostet die für dieses Modellensemble erforderliche IT-Wartung viel mehr als die Einsparungen, die sich aus der "Verbesserung" der Modellgenauigkeit ergeben.
Dann stellt sich die Frage, ob mit Informationen dieser Größenordnung überhaupt eine "Optimierung" möglich ist. Zum Beispiel schlägt Emmanuel Derman, der Physiker und Finanzingenieur, in seinem Buch My Life as a Quant vor, dass Optimierung ein unhaltbarer Mythos ist, zumindest im Finanzingenieurwesen.
Schließlich müssen wichtige Fragen zur relativen Merkmalsbedeutung mit einer großen Anzahl von Merkmalen noch beantwortet werden.
Es gibt keine einfachen Antworten auf Fragen, die die Notwendigkeit einer variablen Auswahl betreffen, und die neuen Herausforderungen, die sich aus den gegenwärtigen, epikureischen Problemumgehungen ergeben, müssen noch gelöst werden. Das Fazit ist, dass wir jetzt alle Datenwissenschaftler sind.
**** BEARBEITEN *** Referenzen
Chattopadhyay I, Lipson H. 2014 Data Smashing: Aufdecken der lauernden Reihenfolge in Daten. JR Soc. Schnittstelle 11: 20140826. http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan und Ziad Obermeyer. 2015. "Vorhersagepolitik Probleme." American Economic Review, 105 (5): 491–95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Jahresfrage: WELCHE WISSENSCHAFTLICHE IDEE IST BEREIT FÜR DEN RUHESTAND? https://www.edge.org/responses/what-scientific-idea-is-ready-for-rentirement
Eric Beinhocker, Wie die tiefgreifenden Veränderungen in der Wirtschaft die Debatten zwischen links und rechts irrelevant machen, 2016, Evonomics.org. https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Epicurus-Prinzip mit mehreren Erklärungen: Behalten Sie alle Modelle bei. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, Discovery in Complex oder Massive Datasets: Common Statistical Themes, Ein von der National Science Foundation finanzierter Workshop, 16.-17. Oktober 2007 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Statistische Methoden und Berechnen für Big Data, Arbeitspapier von Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu und Jun Yan, 29. Oktober 2015 http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Bergbau von massiven Datensätzen, Cambridge University Press; 2 edition (29. Dezember 2014) ISBN: 978-1107077232
Kovarianzmatrizen mit großer Stichprobe und hochdimensionale Datenanalyse (Cambridge Series in Statistical and Probabilistic Mathematics), von Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 Ausgabe (30. März 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE und IMRAN S. CURRIM, Ein empirischer Vergleich von Logit-Choice-Modellen mit diskreten versus kontinuierlichen Darstellungen von Heterogenität, Journal of Marketing Research, 479 Vol. XXXIX (November 2002), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Ein Split-and-Conquer-Ansatz zur Analyse außergewöhnlich großer Datenmengen, Xueying Chen und Minge Xie, DIMACS Technical Report 2012-01, Januar 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Zahlen regieren Ihre Welt: Der verborgene Einfluss von Wahrscheinlichkeiten und Statistiken auf alles, was Sie tun, McGraw-Hill Education; 1 Ausgabe (15. Februar 2010) ISBN: 978-0071626538
Emmanuel Derman, Mein Leben als Quant: Reflexionen über Physik und Finanzen, Wiley; 1 Ausgabe (11. Januar 2016) ISBN: 978-0470192733
* Update im November 2017 *
Nathan Kutz '2013er Buch, Data-Driven Modeling & Scientific Computation: Methoden für komplexe Systeme und Big Data, ist ein mathematischer und PDE-fokussierter Exkurs in die Variablenauswahl sowie in Methoden und Werkzeuge zur Dimensionsreduktion. Eine exzellente, einstündige Einführung in sein Denken finden Sie in diesem Youtube-Video zur datengetriebenen Entdeckung dynamischer Systeme und PDEs vom Juni 2017 . Darin verweist er auf die neuesten Entwicklungen auf diesem Gebiet. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop
quelle
In Bezug auf die Vorhersage müssen Sie sich wahrscheinlich die Frage stellen, wie schnell das Modell die wichtigen Funktionen erlernt. Selbst wenn Sie an OLS denken, erhalten Sie bei ausreichenden Daten so etwas wie eine Modellauswahl. Wir wissen jedoch, dass es nicht schnell genug zu dieser Lösung kommt - deshalb suchen wir nach etwas Besserem.
Bei den meisten Methoden wird davon ausgegangen, welche Art von Betas / Koeffizienten auftreten werden (wie bei einer vorherigen Verteilung in einem Bayes'schen Modell). Sie funktionieren am besten, wenn diese Annahmen zutreffen. Bei der Ridge / Lasso-Regression wird beispielsweise davon ausgegangen, dass die meisten Betas auf derselben Skala liegen und die meisten nahe Null liegen. Sie funktionieren nicht so gut für die Regressionen "Nadeln im Heuhaufen", bei denen die meisten Betas Null sind und einige Betas sehr groß (dh die Skalen sind sehr unterschiedlich). Die Funktionsauswahl funktioniert hier möglicherweise besser - Lasso kann zwischen schrumpfendem Rauschen und unberührtem Signal hängen bleiben. Die Funktionsauswahl ist launischer - ein Effekt ist entweder "Signal" oder "Rauschen".
Für die Entscheidung müssen Sie eine Vorstellung davon haben, welche Art von Prädiktorvariablen Sie haben. Hast du ein paar wirklich gute? Oder sind alle Variablen schwach? Dies wird Ihr Betaprofil verbessern. Und welche Strafen / Auswahlmethoden Sie anwenden (Pferde für Kurse und so weiter).
Die Featureauswahl ist ebenfalls nicht schlecht, aber einige der älteren Näherungen sind aufgrund von Recheneinschränkungen nicht mehr gut (schrittweise, vorwärts). Die Modellmittelung mithilfe der Funktionsauswahl (alle 1-Var-Modelle, 2-Var-Modelle usw., gewichtet nach ihrer Leistung) leistet bei der Vorhersage gute Arbeit. Aber dies bestraft die Betas im Wesentlichen durch die Gewichtung von Modellen, bei denen diese Variable ausgeschlossen ist - nur nicht direkt - und in keiner konvexen Optimierungsproblematik.
quelle
Ich gebe Ihnen die Perspektive der Industrie.
Branchen geben nicht gerne Geld für Sensoren und Überwachungssysteme aus, von denen sie nicht wissen, wie viel sie davon profitieren werden.
Ich möchte zum Beispiel keinen Namen nennen. Stellen Sie sich also eine Komponente mit 10 Sensoren vor, die jede Minute Daten erfassen. Der Eigentümer der Anlage wendet sich an mich und fragt mich, wie gut Sie das Verhalten meiner Komponente mit diesen Daten von 10 Sensoren vorhersagen können. Anschließend führen sie eine Kosten-Nutzen-Analyse durch.
Dann haben sie die gleiche Komponente mit 20 Sensoren, sie fragen mich noch einmal, wie gut können Sie das Verhalten meiner Komponente mit diesen Daten von 20 Sensoren vorhersagen? Sie führen eine weitere Kosten-Nutzen-Analyse durch.
In jedem dieser Fälle vergleichen sie den Nutzen mit den Investitionskosten aufgrund von Sensorinstallationen. (Dies ist nicht nur das Hinzufügen eines 10-Dollar-Sensors zu einer Komponente. Viele Faktoren spielen eine Rolle). Hier kann eine Variablenauswahlanalyse hilfreich sein.
quelle
Als Teil eines Algorithmus zum Erlernen eines rein prädiktiven Modells ist die Variablenauswahl aus Sicht der Leistung nicht unbedingt schlecht und auch nicht automatisch gefährlich. Es gibt jedoch einige Punkte, die man beachten sollte.
Die Gefahr bei einem solchen Variablenauswahlverfahren besteht darin, dass viele Standardverteilungsergebnisse unter der Bedingung der Variablenauswahl ungültig sind. Dies gilt für Standardtests und Konfidenzintervalle und ist eines der Probleme, vor denen Harrell warnt. Breiman warnte auch vor einer Modellauswahl, die beispielsweise auf Mallows ' in The Little Bootstrap ... basiert . Mallows' oder AIC was das betrifft, nicht nicht - Konto für die Modellauswahl und sie geben zu optimistischen Vorhersagefehler.Cp Cp
Eine Kreuzvalidierung kann jedoch zum Schätzen des Vorhersagefehlers und zum Auswählen von , und eine Variablenauswahl kann ein gutes Gleichgewicht zwischen Vorspannung und Varianz erzielen. Dies trifft insbesondere dann zu, wenn einige große Koordinaten hat, wobei der Rest nahe Null liegt wie von @probabilityislogic erwähnt.k β −
Schrumpfungsmethoden wie Ridge Regression und Lasso können ohne explizite Variablenauswahl einen guten Kompromiss zwischen Bias und Varianz erzielen. Wie im OP erwähnt, impliziert Lasso jedoch die Auswahl von Variablen. Es ist nicht wirklich das Modell , sondern die Methode zum Anpassen des Modells, die die Variablenauswahl vornimmt. Aus dieser Perspektive ist die (implizite oder explizite) Variablenauswahl einfach Teil der Methode zum Anpassen des Modells an Daten und sollte als solche betrachtet werden.
Algorithmen zur Berechnung des Lasso-Schätzers können von der Variablenauswahl (oder dem Screening) profitieren. In Statistisches Lernen mit Sparsity: Das Lasso und Verallgemeinerungen , Abschnitt 5.10, wurde beschrieben, wie das Screening, wie es in implementiert
glmnet
ist, nützlich ist. Dies kann zu einer wesentlich schnelleren Berechnung des Lasso-Schätzers führen.Eine persönliche Erfahrung stammt aus einem Beispiel, in dem die Variablenauswahl es ermöglichte, ein komplizierteres Modell (ein verallgemeinertes additives Modell) unter Verwendung der ausgewählten Variablen anzupassen. Kreuzvalidierungsergebnisse zeigten, dass dieses Modell einer Reihe von Alternativen überlegen war allerdings nicht einer zufälligen Gesamtstruktur. Wenn es gamsel gegeben hätte das verallgemeinerte additive Modelle mit variabler Auswahl integriert ich vielleicht auch darüber nachgedacht, es auszuprobieren .− − −
Bearbeiten: Seit ich diese Antwort geschrieben habe, gibt es ein Papier über die bestimmte Anwendung, die ich im Sinn hatte. R-Code zur Reproduktion der Ergebnisse auf dem Papier ist verfügbar.
Zusammenfassend möchte ich sagen, dass die Variablenauswahl (in der einen oder anderen Form) nützlich ist und bleiben wird auch für rein prädiktive Zwecke , um den Kompromiss zwischen Bias und Varianz zu steuern. Wenn nicht aus anderen Gründen, dann zumindest, weil kompliziertere Modelle möglicherweise nicht in der Lage sind, eine sehr große Anzahl von Variablen sofort zu verarbeiten. Mit der Zeit werden wir jedoch natürlich Entwicklungen wie Gamsel sehen, die die Variablenauswahl in die Schätzungsmethodik integrieren.− −
Es ist natürlich immer wichtig, dass wir die Variablenauswahl als Teil der Schätzmethode betrachten. Die Gefahr besteht darin, zu glauben, dass die Variablenauswahl wie ein Orakel funktioniert und den richtigen Satz von Variablen identifiziert. Wenn wir das glauben und so vorgehen, als wären Variablen nicht anhand der Daten ausgewählt worden, laufen wir Gefahr, Fehler zu machen.
quelle
Gestatten Sie mir einen Kommentar zu der Aussage: "... es wird einfach nicht passieren, k Parameter an n <k Beobachtungen anzupassen."
In der Chemometrie interessieren uns häufig Vorhersagemodelle, und die Situation k >> n ist häufig anzutreffen (z. B. in spektroskopischen Daten). Dieses Problem wird in der Regel einfach dadurch gelöst, dass die Beobachtungen vor der Regression (z. B. Regression der Hauptkomponenten) auf einen unterdimensionalen Unterraum a projiziert werden, in dem a <n ist. Unter Verwendung der partiellen Regression der kleinsten Quadrate werden die Projektion und die Regression gleichzeitig durchgeführt, um die Qualität der Vorhersage zu fördern. Die genannten Methoden finden optimale Pseudoinversen zu einer (singulären) Kovarianz- oder Korrelationsmatrix, zB durch Singularwertzerlegung.
Die Erfahrung zeigt, dass die prädiktive Leistung multivariater Modelle steigt, wenn verrauschte Variablen entfernt werden. Selbst wenn wir also - auf sinnvolle Weise - k Parameter mit nur n Gleichungen (n <k) schätzen können, streben wir nach sparsamen Modellen. Zu diesem Zweck wird die Variablenauswahl relevant, und viel chemometrische Literatur widmet sich diesem Thema.
Während die Vorhersage ein wichtiges Ziel ist, bieten die Projektionsmethoden gleichzeitig wertvolle Einblicke in z. B. Datenmuster und die Relevanz von Variablen. Dies wird hauptsächlich durch verschiedene Modellzeichnungen erleichtert, z. B. Punktzahlen, Ladungen, Residuen usw.
Die chemometrische Technologie wird in großem Umfang eingesetzt, z. B. in der Industrie, in der zuverlässige und genaue Vorhersagen wirklich wichtig sind.
quelle
In einigen bekannten Fällen ist eine Variablenauswahl nicht erforderlich. Genau aus diesem Grund ist Deep Learning etwas überzeichnet.
Wenn beispielsweise ein verschachteltes neuronales Netzwerk ( http://cs231n.github.io/convolutional-networks/ ) versucht, vorherzusagen, ob ein zentriertes Bild ein menschliches Gesicht enthält, haben die Ecken des Bildes in der Regel einen minimalen Vorhersagewert. Bei der herkömmlichen Modellierung und Variablenauswahl werden die Eckpixel vom Modellierer als Prädiktoren entfernt. Das verschachtelte neuronale Netzwerk ist jedoch intelligent genug, um diese Prädiktoren im Wesentlichen automatisch zu verwerfen. Dies gilt für die meisten Deep-Learning-Modelle, die versuchen, das Vorhandensein eines Objekts in einem Bild vorherzusagen (z. B. selbstfahrende Autos, die Fahrspurmarkierungen, Hindernisse oder andere Autos in Rahmen von Onboard-Streaming-Videos "vorhersagen").
Deep Learning ist wahrscheinlich bei vielen traditionellen Problemen zu viel des Guten, z. B. bei kleinen Datenmengen oder bei reichlich vorhandenem Domänenwissen. Daher wird die Auswahl traditioneller Variablen zumindest in einigen Bereichen wahrscheinlich für lange Zeit relevant bleiben. Trotzdem ist Deep Learning großartig, wenn Sie eine "ziemlich gute" Lösung mit minimalem menschlichem Eingriff zusammenstellen möchten. Es kann viele Stunden dauern, bis ich handgefertigt und Prädiktoren ausgewählt habe, um handgeschriebene Ziffern in Bildern zu erkennen, aber mit einem verworrenen neuronalen Netzwerk und einer Variablenauswahl von Null kann ich mit TensorFlow von Google in knapp 20 Minuten ein hochmodernes Modell erstellen ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html ).
quelle