Was sind einige gute Interviewfragen für Entwickler von statistischen Algorithmen?

15

Ich interviewe Leute für eine Position als Entwickler / Forscher von Algorithmen in einem Kontext von Statistik, maschinellem Lernen und Data Mining.

Ich suche nach Fragen, um insbesondere die Vertrautheit, das Verständnis und die Fließfähigkeit eines Kandidaten mit der zugrunde liegenden Theorie zu bestimmen, z. B. grundlegende Eigenschaften von Erwartung und Varianz, einige häufige Verteilungen usw.

Meine aktuelle Frage lautet: "Es gibt eine unbekannte Größe die wir schätzen möchten. Zu diesem Zweck haben wir Schätzer Y 1 , Y 2 , ... , Y n , die bei X alle unvoreingenommen und unabhängig sind, und jedes hat eine bekannte Varianz & sgr; 2 i , die für jedes unterschiedlich ist. Finden Sie den optimalen Schätzer Y = f ( Y 1 , , Y n ), der unbefangen ist und eine minimale Varianz hat. "XY.1,Y.2,,Y.nXσich2Y.=f(Y.1,,Y.n)

Ich erwarte von jedem ernsthaften Kandidaten, dass er problemlos damit umgeht (wenn man etwas Zeit hat, die Berechnungen zu erarbeiten), und ich bin dennoch überrascht, wie viele Kandidaten, die angeblich aus relevanten Bereichen stammen, nicht einmal die geringsten Fortschritte erzielen. Ich halte es daher für eine gute, diskriminierende Frage. Das einzige Problem bei dieser Frage ist, dass es sich nur um eine handelt.

Welche weiteren Fragen können dazu herangezogen werden? Wo kann ich alternativ eine Sammlung solcher Fragen finden?

Meni Rosenfeld
quelle
7
Für viele maschinell Lernende (einschließlich guter) ist diese Frage ein Ausweg aus ihrer Komfortzone. Dies ist eine offensichtliche statistische Frage.
Marc Claesen
4
Diese Frage ist zu Recht ein grenzüberschreitendes On / Off-Thema. Es hat jedoch viele Ansichten, mehrere positive Stimmen, eine Antwort mit mehreren positiven Stimmen und ist außerdem CW. Es könnte offen bleiben, IMO.
gung - Wiedereinsetzung von Monica
2
XXXX
4
Zur Vorsicht, Google hat eine große Studie über den internen HR-Prozess durchgeführt und festgestellt, dass die Interviewer-Scores überhaupt nicht mit der späteren Arbeitsleistung korrelierten. Mein Eindruck von der Literatur hier ist, dass (1) Fragen vom Rätseltyp die absolut schlechtesten sind, was nur dazu dient, dass sich der Interviewer schlau fühlt (dh 0 Vorhersagekraft) und (2) dass erfahrungsbasierte Fragen möglicherweise prädiktiven Wert haben. Vergangene Leistungsprognosen zukünftige Leistung u. Sie möchten sich vielleicht auf Fragen konzentrieren, um festzustellen, welche Leistung sie in der Vergangenheit erbracht haben, aber das Interview ist weit weniger aussagekräftig als die Interviewer denken.
Matthew Gunn
3
Die Unvoreingenommenheit wird durch die Summe der Gewichte zur Einheit garantiert. Selbst wenn Sie Ihre Lösung auf lineare Kombinationen der Schätzer beschränken, ist es fast immer so, dass mehrere Schätzer, die auf denselben Daten basieren, stark korrelieren. (Wenn sie wirklich unabhängig sind, werden sie auf disjunkte, unabhängige Teilmengen der Daten angewendet.) Es ist jedoch keineswegs offensichtlich, dass eine lineare Kombination von Schätzern optimal ist.
whuber

Antworten:

12

Was soll Ihr statistischer Entwickler tun?

Die US-Armee sagt, "trainiere, dass du kämpfen wirst, weil du kämpfen wirst, als ob du trainiert wurdest". Testen Sie sie den ganzen Tag, was Sie wollen. Sie möchten wirklich, dass sie für das Unternehmen "Wert schaffen" oder "Geld verdienen".

Boss 101

Denke "Zeig mir das Geld."

  • Geld wächst auf Bäumen, die als Angestellte bezeichnet werden. Sie geben einen "Cent" (ihren Lohn) ein und sie zahlen Ihnen ein "Viertel" (ihren Wert).
  • Wenn Sie ihre Arbeit nicht in Beziehung setzen können, wie sie Geld für das Unternehmen verdienen, dann machen weder Sie noch sie ihre Arbeit richtig.

Hinweis: Wenn Ihre symbolische Manipulationsfrage nicht sauber mit dem "Geld" verbunden ist, stellen Sie möglicherweise die falsche Frage.

Es gibt drei Dinge, die jeder Mitarbeiter tun muss, um ein Mitarbeiter zu sein:

  • Seien Sie tatsächlich in der Lage, die Arbeit zu erledigen
  • Arbeite gut mit dem Team
  • Seien Sie bereit / motiviert, die Arbeit tatsächlich zu erledigen

Wenn Sie diese Daten nicht erhalten, wird Ihnen keine andere Antwort etwas nützen.

Wenn Sie sie durch eine gute Software oder einen gut ausgebildeten Teenager ersetzen können, müssen Sie das irgendwann tun, und es wird Sie kosten.

Daten 101

Was sie können sollten:

  • Verwenden Sie Ihre internen Softwarevarianten (Netzwerk, Betriebssystem, Büro, Präsentation und Analyse)
  • Verwenden Sie einige branchenübliche Softwarevarianten (Excel, R, JMP, MatLab, pick_three) )
  • Holen Sie sich die Daten selbst. Sie sollten grundlegende Datensätze für grundlegende Aufgaben kennen. Sie sollten Repositories kennen. Sie sollten wissen, welche bekannten Daten für welche Aufgabe verwendet werden. Fischer Iris. Pearson-Krabbe. ... es gibt vielleicht 20 Elemente, die hier hingehen sollten. UCI, NIST, NOAA.
  • Sie sollten die Regeln für den Umgang mit Daten kennen. Binärdaten (T / F) haben einen ganz anderen Informationsgehalt als kategoriale (A, B, C, D) oder kontinuierliche. Der richtige Umgang mit den Daten nach Datentyp ist wichtig.
  • Einige grundlegende statistische Aufgaben sind:
    Sind diese beiden gleich oder verschieden (auch bekannt als Cluster / Klassifizieren), in welcher Beziehung steht dies dazu (Regression / Anpassung einschließlich linearer Modelle, glm, radiale Basis,
    Differenzgleichungen), ist es wahr, dass "x "(Hypothesentest), wie viele Proben benötige ich (Akzeptanzstichprobe), wie erhalte ich die meisten
    Daten aus wenigen / billigen / effizienten Experimenten (statistische
    Versuchsplanung) - Haftungsausschluss, ich bin Ingenieur, kein Statistiker Sie sie fragen könnten die Frage "Was sind die verschiedenen grundlegenden Aufgaben und wie testen Sie, ob der Statistiker sie effizient und korrekt ausführen kann?
  • Zugriff / Nutzung der Daten selbst. Hier geht es um Formate und Tools.
    Sie sollten in der Lage sein, aus csv, xlsx (Excel), SQL und
    Bildern zu lesen . (HDF5, Rdata) Wenn Sie ein benutzerdefiniertes Format haben, sollten
    sie es lesen und schnell und
    effizient mit den Tools arbeiten können . Sie sollten Stärke / Schwäche des Formats kennen. CSV ist schnell einsatzbereit, gibt es schon immer, ist ein schneller Prototyp, aber aufgebläht, ineffizient und langsam im Betrieb.
  • Verarbeiten Sie die Daten ordnungsgemäß, indem Sie bewährte Methoden anwenden und keine Sünden begehen. Werfen Sie niemals Daten weg. Passen Sie keine Binomialdaten mit einer durchgehenden Linie an. Trotze nicht der Physik.
  • Erzielen Sie wiederholbare und reproduzierbare Ergebnisse. Einige
    Leute sagen "es gibt Lügen, verdammte Lügen und Statistiken", aber nicht in meiner
    Firma. Dieselbe gute Eingabe ergibt dieselbe gute Ausgabe. Die Ausgabe ist keine Zahl, sondern immer eine Geschäftsentscheidung, die eine
    technische Aktion informiert und zu einem Geschäftsergebnis führt. Unterschiedliche Tests können das Einstellrad auf 5,5 oder 6,5 einstellen, aber die Fähigkeit liegt immer über 1,33.
  • Ergebnisse in der Sprache und auf der Ebene präsentieren, die die Entscheidungsträger
    und / oder Schergenentwickler und / oder sich selbst in einem Jahr
    mit den geringsten Fehlern verstehen können. Eine schöne Sache ist, es erklären zu können, damit deine Oma es bekommt. Dies ( Link ) ist meine Antwort, aber ich mag es.

Analytische Zinger:

Ich denke, unmögliche Fragen sind großartig. Sie sind aus einem bestimmten Grund unmöglich. Zu wissen, ob etwas unmöglich ist, ist eine gute Sache. Zu wissen, warum, wie man sich darauf einlässt oder in der Lage ist, eine andere Frage zu stellen, kann besser sein.

Andere Fragen zum Lebenslauf. ( Link ) Auf reddit. ( link ) andere ( link )

Übrigens: das war eine gute Frage. Möglicherweise muss ich diese Antwort im Laufe der Zeit aktualisieren.

EngrStudent
quelle
3
Dies scheint eine gute Antwort auf eine andere Frage zu sein als die, die ich gestellt habe. Ich habe nicht gefragt, wie man gute Mitarbeiter auswählt (ich würde wahrscheinlich so etwas am Arbeitsplatz fragen.), Sondern nach einer bestimmten Qualifikation.
Meni Rosenfeld
Ich werde es nur dann auf Statistiken reduzieren.
EngrStudent - Wiedereinsetzung von Monica