Ist es für Statistiker wichtig, maschinelles Lernen zu lernen?

22

Ist maschinelles Lernen ein wichtiges Thema für jeden Statistiker? Es scheint, dass maschinelles Lernen Statistik ist. Warum erfordern Statistikprogramme (Studenten und Absolventen) kein maschinelles Lernen?

user20616
quelle
1
Leser hier könnte in folgendem Thread interessiert sein: Was ist der Unterschied zwischen Data Mining, Statistik, maschinelles Lernen, und AI .
gung - Reinstate Monica
2
Weiß nicht, aber ich bin mir ziemlich sicher, dass jeder, der maschinelles Lernen macht, Statistiken lernen sollte.
Dave

Antworten:

18

Maschinelles Lernen ist ein Spezialgebiet für hochdimensionale angewandte Statistik. Es erfordert auch umfangreiche Programmierkenntnisse, die für ein gutes quantitatives Programm nicht erforderlich sind, insbesondere auf der Bachelor-Ebene, aber in gewissem Maße auch auf der Hochschulebene. Es ist nur auf den Vorhersageaspekt der Statistik anwendbar, während der mathematischen Statistik sowie der inferentiellen und deskriptiven angewandten Statistik besondere Aufmerksamkeit zu widmen ist. Viele Programme bieten Studenten die Möglichkeit, sich intensiv mit maschinellem Lernen zu befassen (z. B. CMU), aber Industriestatistiker erhalten insgesamt selten die Möglichkeit, diese Tools anzuwenden, es sei denn, es gibt bestimmte hochkarätige technische Berufe.

Während ich vor kurzem viele Informationen über Wissenschaftler und maschinelles Lernen Positionen auf dem Arbeitsmarkt gesehen habe, ich glaube , die allgemeine Job - Beschreibung von „Statistiker“ erfordert keine Maschine Hintergrund lernen, aber nicht ein einwandfreies Verständnis der grundlegenden Statistiken erfordern, Inferenz und Kommunikation: diese sollten wirklich der Kern eines Absolventenstatistikprogramms sein. Maschinelles Lernen und Datenwissenschaften sind auch als Berufsbezeichnungen und als Disziplinen relativ neu. Es wäre ein Nachteil für diejenigen, die eine Anstellung als Statistiker suchen, ihre Problemlösungsstrategien in Richtung maschinelles Lernen zu beeinflussen, wenn dies in Unternehmen aus den Bereichen Wirtschaft / Pharma / Biowissenschaften in 10 oder 20 Jahren zumeist aufgegeben wird, um die Wirksamkeit zu beeinträchtigen.

Schließlich glaube ich nicht, dass maschinelles Lernen ein solides Verständnis der Statistik enorm verbessert. Die Statistik ist grundsätzlich ein bereichsübergreifender Bereich, und es ist wichtig, nichttechnische Experten auf Ihrem Gebiet (z. B. Ärzte, CFOs oder Administratoren) darüber zu informieren und zu überzeugen, warum Sie sich für die von Ihnen gewählte Methodik entschieden haben. Maschinelles Lernen ist ein derartiges hochtechnisches Nischenfeld, dass es in vielen angewandten Verfahren nur eine inkrementell bessere Leistung verspricht als Standardwerkzeuge und -techniken. Viele der Methoden des überwachten und unbeaufsichtigten Lernens werden von Nichtfachleuten (und sogar von einigen weniger ausgebildeten Fachleuten) als "Black Box" wahrgenommen. Wenn sie gebeten werden, ihre Wahl einer bestimmten Lernmethode zu verteidigen, gibt es Erklärungen, die unbegründet sind und auf keinen der angewandten problembedingten Umstände zurückgreifen.

AdamO
quelle
1
Können Sie uns etwas genauer erklären, was Sie mit den Erklärungen genau meinen (Beispiele vielleicht?)?
cbeleites unterstützt Monica
10
Ich kann die Unterschiede zwischen einer linearen Diskriminanzanalyse, Support-Vektor-Maschinen und einem GLM LASSO nicht so beschreiben, wie es für einen Arzt sinnvoll ist. Aus diesem Grund habe ich ein logistisches Regressionsmodell für die Vorhersage des Brustkrebsrisikos mit einer Handvoll sorgfältig angepasster Kovariaten erstellt. Bei der Präsentation begannen die Ärzte sofort eine aufschlussreiche Diskussion über ihre Effektstärken. Die Unterscheidung meines "Wissenschafts" -Modells war sehr gut vergleichbar mit ausgefeilteren ML-Techniken (überlappende 90% CIs für AUC basierend auf dem Bootstrap in der Validierungsstichprobe), und ich bin nicht der einzige mit einem solchen Fallbericht!
AdamO
4
@cbeleites, mussten Sie jemals einer sachlichen Person mit bestenfalls algebraischen Mathematikkenntnissen kommunizieren? SVM erzeugt keine Effektgrößen, die die Ärzte verstehen würden. Die Breite des Randes macht für sie keinen Sinn, im Gegensatz zu ungeraden Verhältnissen, an die sie sehr gewöhnt sind. Wenn Sie die Sprache des Kunden nicht sprechen können, verschwenden sie nicht ihre Zeit und ihr Geld für Sie.
StasK
2
@GraemeWalsh fantastischer Punkt. Ich habe große Probleme mit dem Konzept, ausgefeilte Vorhersagemodelle für Vorhersageschlüsse zu verwenden, wie dies häufig bei der Modellierung von Strukturgleichungen oder bei Grangers gleichnamiger Kausalität der Fall ist. Ich denke, in diesem Bereich bleibt noch viel zu tun. Zum Beispiel erkenne ich intuitiv eine große Ähnlichkeit zwischen semiparametrischer Modellierung und Randstrukturmodellen, bin mir aber nicht sicher, wo die Unterschiede liegen.
AdamO
2
@Jase Sie sollten einen Blick auf das eingeladene Papier der Netflix-Gewinner werfen. Ihre Berichte waren sehr ähnlich, selbst wenn das Bayes'sche Modell einen Durchschnitt der hinteren Gewichte auf einem großen Raum von Modellen berechnete, stellten sie fest, dass Pca unter allen Bedingungen ein dominierendes hinteres Gewicht zu haben schien. Das heißt nicht, dass sie gleichwertig sind, aber es gibt einen Kompromiss zwischen Einfachheit und Genauigkeit, der mich dazu bringt, einfachere Modelle zu bevorzugen als die, die die ml-Arena bietet. Man könnte sich analog vorstellen, wie ausgefeilte parametrische Modelle ähnlich wie nichtparametrische Modelle funktionieren.
AdamO
14

OK, lassen Sie uns über den Elefanten der Statistik sprechen, wobei wir die Augen vor Augen haben, was wir von ein oder zwei Personen gelernt haben, mit denen wir in unseren Abschlussprogrammen eng zusammengearbeitet haben ...

Stat-Programme setzen voraus, was sie für richtig halten, das heißt, was das Wichtigste ist, was ihre Schüler in Anbetracht der begrenzten Zeit, die die Schüler für das Programm zur Verfügung haben, lernen sollen. Wenn Sie einen engen Bereich benötigen, müssen Sie sich von einigen anderen Bereichen verabschieden, die als gleich wichtig eingestuft werden können. Einige Programme erfordern eine messtheoretische Wahrscheinlichkeit, andere nicht. Einige erfordern eine Fremdsprache, die meisten Programme jedoch nicht. Einige Programme sehen das Bayes'sche Paradigma als das einzige, was es wert ist, studiert zu werden, aber die meisten nicht. Einige Programme wissen, dass der größte Bedarf an Statistikern in Umfragestatistiken besteht (zumindest in den USA), die meisten jedoch nicht. Biostat-Programme folgen dem Geld und bringen SAS + die Methoden bei, die sich leicht in den Medizin- und Pharmawissenschaften verkaufen lassen.

Für eine Person, die landwirtschaftliche Experimente entwirft, Umfragedaten über Telefonumfragen sammelt oder psychometrische Skalen validiert oder Krankheitsfallkarten in einem GIS erstellt, ist maschinelles Lernen eine abstrakte Kunst der Informatik, die sich sehr von Statistiken entfernt, mit denen sie täglich arbeiten Basis. Keiner dieser Menschen wird sofort einen Nutzen aus dem Erlernen von Support-Vektor-Maschinen oder zufälligen Wäldern ziehen.

Alles in allem ist maschinelles Lernen eine nette Ergänzung zu anderen Bereichen der Statistik, aber ich würde argumentieren, dass das Mainstream-Material wie multivariate Normalverteilung und verallgemeinerte lineare Modelle an erster Stelle stehen müssen.

StasK
quelle
5

Beim maschinellen Lernen geht es darum, Wissen zu gewinnen / aus Daten zu lernen. Ich arbeite beispielsweise mit Algorithmen für maschinelles Lernen, mit denen aus DNA-Microarray-Daten (z. B. Krebs oder Diabetes) einige Gene ausgewählt werden können, die möglicherweise an einer bestimmten Krankheit beteiligt sind. Wissenschaftler können diese Gene (gelernte Modelle) dann für eine frühzeitige Diagnose in der Zukunft verwenden (Klassifizierung nicht sichtbarer Proben).

Es gibt viele Statistiken, die mit maschinellem Lernen zu tun haben, aber es gibt Bereiche des maschinellen Lernens, für die keine Statistiken erforderlich sind (z. B. genetische Programmierung). In diesen Fällen benötigen Sie nur Statistiken, um festzustellen, ob sich ein Modell, das Sie mit maschinellem Lernen erstellt haben, statistisch signifikant von einem anderen Modell unterscheidet.

Meiner Meinung nach wäre eine Einführung in das maschinelle Lernen für Statistiker von Vorteil . Dies wird den Statistikern helfen, reale Szenarien der Anwendung von Statistiken zu sehen. Es sollte jedoch nicht obligatorisch sein . Sie können ein erfolgreicher Statistiker werden und Ihr ganzes Leben verbringen, ohne jemals in die Nähe des maschinellen Lernens gehen zu müssen!

Revolutionen
quelle
2
Ich würde sagen, Sie benötigen Statistiken jedes Mal, wenn Sie die Leistung Ihres Modells melden. Mabe, das ist, weil mein Beruf analytische Chemie ist, wo eine der wichtigen Regeln ist "eine Zahl ohne Konfidenzintervall ist kein Ergebnis".
cbeleites unterstützt Monica
1
Ich stimme dir zu. Was ich damit meinte war, dass Statistiker nicht unbedingt Experten für maschinelles Lernen sein müssen! Sie können ohne maschinelles Lernen auskommen :)
Revolutionen
1
@cbeleites oder mehrere Konfidenzintervalle bei multimodalen Esimatoren (z. B. Sivia & Skilling Data Analysis ).
Alancalvitti