Was können Statistiker nicht automatisieren?

26

Wird Software Statistiker irgendwann überflüssig machen? Was kann nicht in einen Computer programmiert werden?

Adam
quelle
21
Sie denken (dh bringen Wissen zum Tragen).
gung - Wiedereinsetzung von Monica
10
Interpretation der Ergebnisse ;-)
Oktober
5
Die gleiche Frage kann dann für Programmierer im Allgemeinen gestellt werden;)
nb1
4
Wir entwerfen Studien und müssen uns insbesondere mit realen Problemen befassen, bei denen das statistisch "beste" Design nicht umgesetzt werden kann. Wir bereinigen schmutzige Daten und bringen reales Wissen ein. Wir interpretieren die Ergebnisse auch in Klartext.
Michelle
13
Bier trinken! ; o)
Dikran Beuteltier

Antworten:

28

@Adam, wenn Sie statistische Forscher analog zu jenen in anderen Bereichen betrachten - Menschen, die auf der vorhandenen Methodik und dem vorhandenen Wissen aufbauen - dann könnte dies deutlicher machen, dass die Antwort auf Ihre erste Frage "Nein" lautet.

Statistiker, die von der einfachen Anwendung von Softwarepaketen aus der Dose leben, könnten möglicherweise für jeden Schritt durch Computer ersetzt werden, es sei denn, sie schreiben den Diskussionsabschnitt eines Papiers, in dem die Ergebnisse interpretiert werden müssen. In diesem Sinne, ja - es könnte automatisiert werden (obwohl es eine komplizierte Software sein müsste, die einen verdammt natürlichen Sprachprozessor hat).

Wie die meisten Forscher jedoch irgendwann herausfinden, sind die Routinen, die die Menschen häufig anwenden, recht begrenzt und müssen modifiziert (oder neue Methoden müssen entwickelt werden) werden, um spezielle Forschungsfragen zu beantworten - hier ist der menschliche Aspekt der Statistik unverzichtbar . Oder ein Forscher muss sich einfach mit einer etwas anderen, aber verwandten Forschungsfrage begnügen, die mit klassischen Methoden beantwortet werden kann.

Die meisten Statistiker, die ich kenne, arbeiten in Forschungsberufen (z. B. Professoren, Wissenschaftler), deren Hauptaufgabe darin besteht, neue Methoden zu entwickeln. Wenn dieser Prozess automatisiert werden könnte, was bedeutet, dass ein Computer nützliche neue Methoden formulieren und entwickeln kann, dann fürchte ich, dass Forscher auf jedem Gebiet überholt wären.

Makro
quelle
2
Ich denke, in Ihrem zweiten Absatz fehlt ein Punkt: Es ist nicht nur das Ende des Prozesses (Ergebnisinterpretation), sondern auch der Anfang - zu verstehen, welche Methoden auf welche Weise auf die Daten angewendet werden sollen, was im Allgemeinen ein Verständnis der Natur erfordert der Daten und des Systems, von dem es kam.
Cascabel
@Jefromi, wie ich weiter unten an jemanden kommentiert habe, glaube ich, dass das Verständnis von einem Experten auf dem Gebiet der Anwendung kommt, nicht von einem Statistiker.
Makro
Wenn das Verständnis nur von Experten auf dem Gebiet der Anwendung kommen würde, wäre meine Arbeit viel einfacher (und viel weniger spaßig). Es gibt ein Rahmenproblem: Etwas, das der Experte nicht zu sagen glaubt, kann für die statistische Analyse wichtig sein. In der Praxis führen die fruchtbarsten Kooperationen dazu, dass der Experte eine angemessene Menge an Statistiken lernt und der Statistiker eine angemessene Menge über den Anwendungsbereich lernt.
Scortchi
33

Computer machen Statistiker nur dann obsolet, wenn starke KI den Menschen als Ganzes obsolet macht.

Die Frage erinnert mich an die Frage: "Wenn es all diese robusten statistischen Methoden gibt, warum wenden die Leute dann noch andere Methoden an?" Ein Teil der Antwort ist Gewohnheit und Training, aber ein Großteil davon ist, dass die Frage naiv ist: "robust" bedeutet nicht "Sie müssen nicht darüber nachdenken und verstehen, was Sie tun", wie die Frage impliziert.

Ich meine, Sie könnten heute das R-Statistikpaket herunterladen und bei Einbruch der Dunkelheit jede grundlegende statistische Technik ausführen. Sie könnten dann ein paar Pakete herunterladen und Methoden anwenden, die so esoterisch sind, dass die meisten von uns noch nicht einmal davon gehört haben. Die Frage ist: Würden Sie vernünftige Antworten bekommen? Die Antwort lautet: wahrscheinlich nicht.

Die Algorithmen sind automatisiert, aber Sie müssen auf dem gesamten Untersuchungsweg noch viele Entscheidungen treffen: vom Angriffsplan bis zur endgültigen Beurteilung, ob die Ergebnisse tatsächlich Sinn ergeben. Um an diesen Punkt zu gelangen, sprechen Sie wirklich von Star-Trek-ähnlichen Computern, auf denen Sie sagen können: "Computer, sag mir ...". An diesem Punkt ist so ziemlich jede menschliche Berufung überholt.

Wayne
quelle
4
+1 für "Computer machen Statistiker nur dann überflüssig, wenn starke KI den Menschen als Ganzes überflüssig macht."
Makro
10

Was kann ein Statistiker tun, was ein Computer nicht kann? Schreiben Sie das ursprüngliche Programm, durch das sie ersetzt werden.

Abgesehen von dieser etwas albernen Antwort liegt die Wurzel der Frage darin, die eigentliche Wissenschaft der Statistik zugunsten ihrer Mechanik zu ignorieren und die Rolle des kreativen Prozesses bei der statistischen Analyse völlig zu vernachlässigen. Um das Beispiel von Peter Flom zu verwenden: Autos werden mit Nieten und Schweißnähten gebaut. Es gibt also keinen Grund, warum der neue Mustang nicht mit Niet- und Schweißrobotern konstruiert werden könnte.

Eine enorme Menge an Statistiken erfordert Fachwissen, Urteilsvermögen und Kreativität. "Canned" -Analysen, die mit einem Algorithmus ausgeführt werden, liefern häufig nicht die beste Antwort, und es gibt unzählige dokumentierte Beispiele, in denen die Verwendung automatisierter Methoden tatsächlich die falsche Antwort liefert - oder zumindest nicht die Antwort, die Sie zu erhalten glauben. Die Verwendung von schrittweisen p-Wert-basierten Variablenauswahlverfahren und die Analyse auf der Basis von rein numerisch definierten Quantilen sind mir am vertrautesten, aber ich bin mir sicher, dass Sie eine Fülle anderer finden können.

Auch wenn alles noch irgendwie automatisiert war, geht es darum, die Ergebnisse zu interpretieren. Die Arbeit des Statistikers (oder statistisch orientierten Wissenschaftlers) ist nicht erledigt, wenn Sie einen Regressionskoeffizienten oder einen p-Wert erhalten. Was bedeutet , dass die Suche nach Mittelwert . Was sind die Vorbehalte? Was bedeutet das im Kontext des Vorhergehenden?

Schließlich haben Sie die Entwicklung neuer Methoden. Statistiken wurden nicht einfach vor langer Zeit von Leuten entworfen, deren Namen wir kennen - Fisher, Cox usw. Es ist ein sich entwickelndes Feld, und Sie können eine neue Methode erst dann in einen Computer programmieren, wenn eine Person die Methode selbst entwickelt.

Fomite
quelle
2
(+1), weil "Canned-Analysen, die mit einem Algorithmus ausgeführt werden, häufig nicht die beste Antwort liefern", sehr richtig ist. Dies bedeutet nicht, dass Menschen, die Statistiken praktizieren, dies nicht die ganze Zeit tun. (Hinweis: Die meisten Statistiker sind KEINE Statistiker ... eher Leute, die Statistiken verwenden, obwohl sie nicht genau wissen, was sie tun, was oft zu einer schlechten Wissenschaft führt.)
Makro
10

Eine andere Möglichkeit, diese Frage zu interpretieren, könnte sein: "Hat der rasche Anstieg der automatisierten statistischen Techniken in den letzten Jahren mit einer geringeren Nachfrage nach Stellen für engagierte Statistiker und Datenanalysten zu tun?"

Wir können diese Frage beantworten, indem wir uns die Daten ansehen Stellenmarkt für Datenanalysepositionen
Bildbeschreibung hier eingeben

Daten mit freundlicher Genehmigung von indeed.com & revolutions blog

cboettig
quelle
+1 Auch Indeed.com hat @cboettig nicht obselet gemacht.
Thomas Levine
4
Ich bin nicht davon überzeugt, dass "die Nachfrage nach engagierten Statistikern und Datenanalysten in Jobs" in hohem Maße mit der Verwendung der Keywords "Data Scientist" oder "Big Data" in Stellenanzeigen korreliert. <- Vermutungen gegenüber misstrauisch zu sein, ist das, was der Mensch an den Tisch bringt ;-)
Darren Cook
@ DarrenCook gut gesagt!
Cboettig
7

Ich bin mit der Prämisse der Frage nicht ganz einverstanden, dh ich glaube, es gibt keinen Weg, auf dem Computer jemals hoffen könnten, Statistiker zu ersetzen, sondern ein konkretes Beispiel dafür zu geben, warum ich das denke:

Die Arbeit der Statistiker mit Wissenschaftlern, insbesondere bei der Gestaltung und Interpretation von Experimenten, erfordert nicht nur einen menschlichen Verstand, sondern auch eine philosophische Neigung, die Computer niemals zeigen könnten.

Es sei denn, wir befinden uns in einer Art Skynet-Situation. In diesem Fall sind wahrscheinlich alle Wetten für die Zukunft der gesamten Menschheit ungültig, ganz zu schweigen von den Statistikern :-)

Chris Beeley
quelle
1
Es sei denn, ich habe katzenartige Oberherren, denen ich gehorchen muss. :)
Michelle
5

Die Frage deutet auf eine naive Sichtweise eines Statistikers hin - es geht darum, zu überprüfen, ob ap <0,05 ist, und einige Zahlen und Standarddiagramme zu melden. Wenn Sie das mit Statistiker meinen, dann haben Sie Recht damit, dass ein Großteil davon vollständig automatisiert werden könnte. Aber das bedeutet Statistiker nicht.

Definieren Sie jedoch Ihren Begriff Statistiker, und Sie erhalten möglicherweise bessere Antworten.

John
quelle
3

Wenn Sie ein Statistikpaket auf Ihren Computer laden, sind Sie kein Statistiker mehr, als wenn Sie ein Auto kaufen, mit dem Sie fahren können.

Auch wenn der Statistiker nur "Dosen" -Routinen anwendet, gibt es viele Fragen.

  1. Welche Routine? Welche Routine beantwortet die Fragen des Kunden?
  2. Mit welchen Variablen? und sollten sie umgewandelt werden? Sollten einige Ebenen kombiniert werden? Welche sollen zu einem Modell gezwungen werden?
  3. Mit welchen Daten? Sollten Ausreißer gelöscht werden? Getrimmt? Vielleicht eine robuste Methode?

und so weiter.

Der Auftrag beginnt jedoch lange vor dem Einschalten des Computers und endet lange nach dem Ausschalten des Statistikpakets.

Vorher: Was möchte der Kunde tun? Das ist oft viel Arbeit! Welche Daten hat der Kunde? Oy vey! Die Variablen sind mit V1 bis V828171 beschriftet. Welche sind welche? Wie ist der Stand der Literatur? Was erwartet der Kunde? Wie technisch soll es sein?

Nach: Was Ergebnisse bedeuten ? (und nicht nur "dies bedeutet, dass die Regression signifikant ist") Wie sollten die Ergebnisse dem Kunden erklärt werden? Welche weiteren Fragen werfen die Ergebnisse auf?

Ich denke, es wird eine lange Zeit dauern, bis Computer dies tun können.

Peter Flom - Setzen Sie Monica wieder ein
quelle
1
Um die in (1), (2) und (3) aufgelisteten Fragen zu beantworten, durchlaufen Sie einen logischen Prozess. Theoretisch könnte dieser logische Prozess in ein Computerprogramm codiert werden. Wenn der Computer einen perfekten Prozessor für natürliche Sprache hätte und die Software nur "konservierte" Software enthielte und die oben erwähnte Logik einprogrammiert hätte, wäre er in der Lage, diese Dinge zu tun. Oder sagen Sie, es ist nicht gerade ein logischer Prozess?
Makro
4
Für mich ist die Analogie ein bisschen näher dran: "Ein Auto zu kaufen macht dich nicht zum Mechaniker oder Autodesigner."
Kardinal
1
@Macro Weil es ein logischer Prozess ist, der nicht unbedingt bedeutet, dass er in einen Computer programmiert werden kann. "Sollten einige Ebenen kombiniert werden" ist nicht immer eine numerische Messung - es muss überlegt werden, ob diese kombinierten Ebenen zum Beispiel im Kontext der Variablen selbst sinnvoll sind.
Fomite
1
Zu entscheiden, ob es im Kontext der Anwendung sinnvoll ist, ist auch keine Frage für einen Statistiker - es ist eine Frage für einen Experten für die jeweilige Anwendung. Ein Statistiker kann Ihnen sagen, ob es gerechtfertigt ist, die Ebenen danach zu kombinieren, ob sie homogen erscheinen oder nicht, was sicherlich einem Computer beigebracht werden könnte.
Makro
4
Ich kann den Hinweis auf nicht erwehren , dass Google hat große Fortschritte in Richtung wurde zu machen , wo ein Auto zu kaufen werden Sie in der Lage machen zu fahren - es wird so automatisch tun!
whuber
2

Studien, die die Wahrscheinlichkeit der Automatisierung verschiedener Berufe oder Aufgaben untersuchen, gehen nicht davon aus, dass die Statistiker bald durch Computer ersetzt werden. Siehe zum Beispiel die umstrittene Frey & Osborne (2013) -Studie, in der Berufe nach ihrer Wahrscheinlichkeit der Computerisierung eingestuft werden, wobei Statistiker mit einer Wahrscheinlichkeit von 22% auf dem niedrigen Rang 213 von 702 stehen (siehe Tabelle im Anhang). Wenn Sie weiter interessiert sind, lesen Sie auch den Slate-Artikel hier .

Arntz et al. (2016) ( hier ein The Economist-Artikel) befassen sich eher mit Aufgaben als mit Berufen in der Europäischen Union und kommen zu einem ähnlichen Ergebnis: "Komplexe Mathematik oder Statistik" hat einen statistisch signifikant negativen Einfluss auf die Automatisierbarkeit von Jobs (siehe Tabelle 3).

Aber Vorsicht ist geboten, Akademiker und / oder Ökonomen waren nicht immer sehr gut darin, die Zukunft vorherzusagen (der Nobelpreisträger Robert Lucas beispielsweise kam 2003, wenige Jahre vor der Finanzkrise, zu dem Schluss, dass das "zentrale Problem der Depressionsprävention" wurde für alle praktischen Zwecke gelöst und ist in der Tat seit vielen Jahrzehnten gelöst. " ). Beide Studien scheinen ein Arbeitspapier zu sein, das viel diskutiert, aber nicht in Standard-Fachzeitschriften veröffentlicht wurde.

In Bezug auf die akademische Debatte finden Sie hier einen Übersichtsartikel zum Stand der Automatisierungsforschung.

Arne
quelle
0

Ich denke, dass die KI die Statistiker nur schlauer und wettbewerbsfähiger machen wird. Warum? Denn das ist die Absicht der künstlichen Intelligenz seit ihrer Konzeption vor vielen Jahrzehnten ...

user22478
quelle