Ein Kurs in experimentellem Design für Data Miner

11

Ich bin Informatiker und arbeite im Data Mining. Es ist kein Geheimnis zu sagen, dass Informatiker ziemlich schlecht darin sind, systematische experimentelle Entwürfe und Bewertungen durchzuführen - die Verwendung von p-Werten und Konfidenzschätzungen wird als fortgeschritten angesehen :).

Was ich gerne wissen würde, wenn es gute Kurse / Materialien gibt, um Informatiker über gutes experimentelles Design zu unterrichten. Um dies genauer zu machen, füge ich die folgenden Informationen hinzu:

  • Der Kurs sollte sich an Doktoranden richten, von denen angenommen werden kann, dass sie ein angemessenes Verständnis der Wahrscheinlichkeit haben, aber nur einen begrenzten statistischen Hintergrund haben.
  • Der Kurs sollte sich auf experimentelles Design in "unkontrollierten unnatürlichen Umgebungen" konzentrieren: Mit anderen Worten, es gibt weder eine zugrunde liegende physikalische Grundwahrheit noch eine Möglichkeit, den Datenerfassungsprozess zu steuern (wie bei menschlichen Probanden). Natürlich wird sich ein guter Kurs auf die Grundlagen konzentrieren, aber er sollte sich in erheblichem Maße mit diesem Szenario befassen.
  • Ein Rechenelement wäre ein Bonus, ist aber nicht obligatorisch. Wir beschäftigen uns mit vielen Daten, können aber bei Bedarf selbst Rechenprobleme herausfinden.
Suresh Venkatasubramanian
quelle
1
Alle Bedingungen des von Ihnen beschriebenen Experiments erinnern mich an A / B-Tests ... Zufall? :)
steffen

Antworten:

5

[Noah Smith] [1] und [David Smith] [2] haben vor einiger Zeit einen Kurs an der JHU mit ähnlichen Motivationen angeboten.

Gliederung:

  • Vorlesung 1: Einführung, Überprüfung der Statistik, Hypothesentest, Probenahme
  • Vorlesung 2: Statistiken von Interesse: Mittelwerte, Quantile, Varianz
  • Vorlesungen 3–4: Experimente mit Laufzeit und „Raum“
  • Vorlesung 5: Explorative Datenanalyse
  • Vorlesung 6: Parametrische Modellierung, Regression und Klassifizierung
  • Vorlesung 7: Statistisches Debuggen und Profiling
  • Vorlesung 8: Zusammenfassung und Überprüfung

Weitere Informationen finden Sie unter Empirische Forschungsmethoden in der Informatik (600.408) http://www.cs.jhu.edu/~nasmith/erm/

Löschen
quelle
3

Gute Frage. Ich bin gespannt auf die Antworten.

Aus statistischer Sicht müssen zwei Probleme angegangen werden: Die meisten Statistiken und statistischen Entwürfe diskutieren Statistiken mit kleinen Stichproben, und die meisten von Ingenieuren verwendeten Methoden sind keine "modernen" Statistiken.

Ich habe keinen unmittelbaren Vorschlag für das erste Problem, das über eine gute Schulbildung im Bereich Data Mining / Exploration hinausgeht, und die Bedeutung von statistisch unterschiedlich, wenn es um die Analyse von Bevölkerungsstatistiken (oder Statistiken mit großen Stichproben) geht.

Zwei interessante Bücher für die Einführung von Studenten in die Statistik stammen jedoch von Rand Wilcox (einem Psychologen):

Wilcox, RR (2012). Einführung in die robuste Schätzung und das Testen von Hypothesen, 3. Aufl. Akademische Presse.

Wilcox, RR (2010). Grundlagen moderner statistischer Methoden: Wesentliche Verbesserung von Leistung und Genauigkeit, Springer, 2. Aufl.

Jason Morrison
quelle
2
Es scheint mir, dass die erste Ausgabe eine für die Forschung ist und möglicherweise noch keine "Best Practices" enthält. Es kann durchaus sein, dass eine solide Einführung in grundlegende Tests und Bohrungen im Problem der Mehrfachhypothese der beste Ausgangspunkt ist.
Suresh Venkatasubramanian