Ich werde in der zweiten Hälfte dieses Semesters Statistik als Lehrassistent für CS-orientierte Studenten unterrichten. Die meisten Schüler, die an der Klasse teilgenommen haben, haben keinen Anreiz, das Fach zu lernen, und haben es nur für wichtige Anforderungen genommen. Ich möchte das Thema interessant und nützlich machen, nicht nur eine Klasse, die sie lernen, ein B + zu bestehen.
Als Doktorand in reiner Mathematik wusste ich wenig über die reale angewandte Seite. Ich möchte nach einigen realen Anwendungen der Statistik für Studenten fragen. Beispiele, die ich suche, sind solche (im Geiste) wie:
1) Das Anzeigen des zentralen Grenzwertsatzes ist für bestimmte große Stichprobendaten nützlich.
2) Geben Sie ein Gegenbeispiel an, dass der zentrale Grenzwertsatz nicht anwendbar ist (z. B. diejenigen, die der Cauchy-Verteilung folgen).
3) Zeigen, wie das Testen von Hypothesen in berühmten Beispielen aus der Praxis mit Z-Test, T-Test oder Ähnlichem funktioniert.
4) Zeigen, wie eine Überanpassung oder eine falsche Anfangshypothese zu falschen Ergebnissen führen kann.
5) Zeigen, wie der p-Wert und das Konfidenzintervall in (bekannten) realen Fällen funktionierten und wo sie nicht so gut funktionieren.
6) In ähnlicher Weise Fehler vom Typ I, Typ II, statistische Leistung, Ablehnungsstufe usw.
Mein Problem ist, dass ich zwar viele Beispiele auf der Wahrscheinlichkeitsseite habe (Münzwurf, Würfelwurf, Ruine des Spielers, Martingale, zufälliger Spaziergang, Paradoxon der drei Gefangenen, Monty-Hall-Problem, Wahrscheinlichkeitsmethoden im Algorithmus-Design usw.), aber nicht weiß, wie viele kanonische Beispiele auf der Statistikseite. Was ich meine, sind ernsthafte, interessante Beispiele, die einen gewissen pädagogischen Wert haben, und es ist nicht extrem künstlich erfunden, was sehr distanziert vom wirklichen Leben zu sein scheint. Ich möchte den Schülern nicht den falschen Eindruck vermitteln, dass Z-Test und T-Test alles sind. Aufgrund meines reinen mathematischen Hintergrunds kenne ich jedoch nicht genügend Beispiele, um die Klasse für sie interessant und nützlich zu machen. Also suche ich Hilfe.
Das Niveau meines Schülers liegt bei Kalkül I und Kalkül II. Sie können nicht einmal zeigen, dass die Varianz der Standardnormalen per Definition 1 ist, da sie nicht wissen, wie der Gaußsche Kernel zu bewerten ist. Alles, was leicht theoretisch oder praktisch rechnerisch ist (wie hypergeometrische Verteilung, Arcsin-Gesetz im 1D-Random-Walk), wird also nicht funktionieren. Ich möchte einige Beispiele zeigen, die nicht nur "wie", sondern auch "warum" verstehen können. Ansonsten bin ich mir nicht sicher, ob ich durch Einschüchterung beweisen werde, was ich gesagt habe.
quelle
Antworten:
Eine gute Möglichkeit kann darin bestehen, R ( http://www.r-project.org/ ) zu installieren und seine Beispiele für den Unterricht zu verwenden. Sie können auf die Hilfe in R mit den Befehlen "? T.test" usw. zugreifen. Am Ende jeder Hilfedatei finden Sie Beispiele. Für t.test zum Beispiel:
quelle
Ich schlage eine Anwendung des zentralen Grenzwertsatzes zur Vorbestimmung einer Stichprobengröße und zur Beantwortung von Fragen wie "Habe ich genügend Fragebögen verschickt" usw. vor.
http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf bietet ein gutes Beispiel aus der Praxis für die Anwendung des zentralen Grenzwertsatzes. Eine didaktische Strategie könnte sein:
Eine Theorie
* Machen Sie den Unterschied zwischen einer Stichprobenverteilung und der Verteilung einer Schätzung deutlich, z. B. durch die "flache" Verteilung des Würfelns gegenüber der Verteilung des Mittelwerts von N Würfeln (verwenden Sie R oder lassen Sie die Schüler sogar selbst mit Excel-Zeichnungen spielen -Wertverteilungen versus Mittelwertverteilung)
* Zeigen Sie die formelbasierte Berechnung von Perzentilen für die Verteilung des Mittelwerts an (da Sie tief in der Mathematik sind, möchten Sie möglicherweise die Formel ableiten) - dieser Punkt entspricht den Folien 10-17 in der oben verlinkten Darstellung
und dann (wie in Folie 20 aus der oben verlinkten Präsentation):
B) Anwendung
* zeigen, wie der zentrale Grenzwertsatz hilft, Stichprobengrößen für eine gewünschte Genauigkeit in Schätzungen des Mittelwerts zu bestimmen
Diese Anwendung B) ist das, was nach meiner Erfahrung Nicht-Statistiker von einem Statistiker erwarten - Beantwortung von Fragen vom Typ "Habe ich genug Daten?"
quelle
Da Sie CS-Studenten unterrichten, kann eine gute Anwendung des zentralen Grenzwertsatzes darin bestehen, den Mittelwert aus einem massiven Datensatz (dh> 100 Millionen Datensätze) zu schätzen. Es kann lehrreich sein zu zeigen, dass es nicht erforderlich ist, den Mittelwert für den gesamten Datensatz zu berechnen, sondern stattdessen aus dem Datensatz eine Stichprobe zu erstellen und den Mittelwert aus dem gesamten Datensatz / der Datenbank anhand des Stichprobenmittelwerts zu schätzen. Sie können noch einen Schritt weiter gehen, wenn Sie ein Dataset mit drastisch unterschiedlichen Werten für verschiedene Untergruppen simulieren möchten. Anschließend können die Schüler die geschichteten Stichproben untersuchen, um genauere Schätzungen zu erhalten.
Da es CS-Studenten gibt, möchten Sie möglicherweise ein Bootstrapping durchführen, um auch Konfidenzintervalle zu erhalten oder die Abweichungen komplexerer Statistiken abzuschätzen. Dies ist eine schöne Schnittstelle zwischen Statistik und Computer, da sie meiner Meinung nach zu einem größeren Interesse an dem Thema führen könnte.
quelle
Ich habe zuerst einen Kommentar eingegeben, aber er wurde zu lang ...
Denken Sie daran, dass sie CS-Studenten sind. Sie werden ihnen nicht so gefallen wie Mathematikern (mit Algebren) oder Biologen, Ärzten (mit biologischen oder medizinischen Daten und klassischen Rezepten zum Testen guter alter Nullhypothesen). Wenn Sie genügend Freiheit haben, um die Ausrichtung der Vorlesung zu bestimmen, und wenn es darum geht, dass sie grundlegende Konzepte lernen, ist mein Rat, eine radikale Änderung der Ausrichtung vorzunehmen. Wenn andere Lehrer möchten, dass sie einige vordefinierte Aufgaben ausführen können, stecken Sie natürlich ein bisschen fest.σ
Meiner Meinung nach wird es ihnen gefallen, wenn Sie Schlussfolgerungen aus Sicht des "Lernens" und Tests aus Sicht der "Entscheidungstheorie" oder "Klassifizierung" präsentieren - kurz gesagt, sie werden angenommen Algorithmen zu mögen. Algorithmen grok!
Versuchen Sie außerdem, CS-bezogene Datensätze zu finden. Beispielsweise können die Dauer der Verbindungen und die Anzahl der Anforderungen pro Zeiteinheit an einen HTML-Server helfen, viele Konzepte zu veranschaulichen.
Sie werden es lieben, Simulationstechniken zu lernen. Lehmer-Generatoren sind einfach zu implementieren. Zeigen Sie ihnen, wie Sie andere Verteilungen simulieren, indem Sie das PDF invertieren. Wenn Sie daran interessiert sind, zeigen Sie ihnen den Ziggurat-Algorithmus von Marsaglia. Oh, und der MWC256-Generator von Marsaglia ist ein kleines Juwel. Die Diehard-Tests von Marsaglia (Tests zur Fairness einheitlicher Generatoren) können helfen, viele Konzepte von Wahrscheinlichkeit und Statistik zu veranschaulichen. Sie können sich sogar dafür entscheiden, die Wahrscheinlichkeitstheorie basierend auf "(unabhängigen) Strömen zufälliger Doppel, Oups, ich meine Real" zu präsentieren - das ist ein bisschen frech, aber es kann großartig sein.
Denken Sie auch daran, dass der Seitenrang auf einer Markov-Kette basiert. Dies ist keine leichte Sache, aber nach der Präsentation von Arthur Engel (ich denke, die Referenz ist der probabilistische Abakus - wenn Sie Französisch lesen, ist dieses Buch ein absolutes Muss ) können Sie leicht ein paar Spielzeugbeispiele präsentieren, die ihnen gefallen werden . Ich denke, dass CS-Wissenschaftsstudenten Discrete Markov-Ketten viel mehr mögen als Tests, auch wenn es schwieriger erscheint (Engels Präsentation macht es sehr einfach).t
Wenn Sie Ihr Fach genug beherrschen, zögern Sie nicht, originell zu sein. "Klassische" Vorlesungen sind in Ordnung, wenn Sie etwas unterrichten, mit dem Sie nicht vollständig vertraut sind. Viel Glück und wenn Sie einige Vorlesungsunterlagen veröffentlichen, lassen Sie es mich bitte wissen!
quelle
Sie sagen, das sind Informatikstudenten. Was sind ihre Interessen, ist dies hauptsächlich theoretische Informatik oder Studenten, die hauptsächlich durch die Vorbereitung auf Jobs motiviert sind? Sie können uns auch die Kursbeschreibung mitteilen!
Unabhängig von Ihrer Antwort auf diese Fragen können Sie jedoch mit einigen praktischen Statistiken beginnen, die in informatischen Kontexten auftreten, wie z. B. (zum Beispiel) Webdesign. Diese Website hat von Zeit zu Zeit Fragen dazu, z. B. Conversion-Raten im Zeitverlauf oder /stats/96853/comparing-sales-person-conversion-rates oder AB Testen anderer Faktoren neben der Conversion-Rate .
Hier gibt es viele Fragen wie diese, anscheinend von Leuten, die mit Webdesign zu tun haben. Die Situation ist, dass Sie eine Webseite haben (sagen wir, Sie verkaufen etwas). Die "Conversion-Rate" ist, wie ich es verstehe, der Prozentsatz der Besucher, die eine bevorzugte Aufgabe ausführen (z. B. Kauf oder ein anderes Ziel, das Sie für Ihre Besucher haben). Dann fragen Sie als Webdesigner, ob Ihr Layout der Seite dieses Verhalten beeinflusst. Sie programmieren also zwei (oder mehr) Versionen der Webseite, wählen zufällig aus, welche Version einem neuen Kunden präsentiert werden soll, können die Conversion-Raten vergleichen und schließlich die Version mit der höchsten Conversion-Rate implementieren.
Dies ist ein Problem beim Entwurf eines Vergleichsexperiments, und Sie benötigen statistische Methoden, um Prozentsätze zu vergleichen, oder möglicherweise direkt die Kontingenztabelle von Entwürfen im Vergleich zu Konvertierung / keine Konvertierung. Dieses Beispiel könnte ihnen zeigen, dass Statistiken für sie in einem Webentwicklungsjob tatsächlich nützlich sein könnten! Und von der statistischen Seite aus eröffnet es viele interessante Fragen zur Gültigkeit von Annahmen ...
Um eine Verbindung zu Ihren Aussagen zum zentralen Grenzwertsatz herzustellen, können Sie fragen, wie viele Beobachtungen Sie benötigen, bevor Sie die Prozentsätze als normalverteilt behandeln können, und diese mithilfe von Simulationen untersuchen lassen ...
Sie können diese Site nach anderen Statistikfragen durchsuchen, die von Programmierertypen gestellt werden ...
quelle
Ich schlage vor, dass es vor guten Beispielen besser ist, sich auf klare Definitionen zu konzentrieren. Nach meiner Erfahrung ist Wahrscheinlichkeit und Statistik für Studenten ein Kurs voller Wörter, die keiner der Studenten versteht. Fragen Sie als Experiment Schüler, die gerade einen Wahrscheinlichkeitskurs abgeschlossen haben, was eine "Zufallsvariable" ist. Sie mögen Ihnen Beispiele geben, aber ich bezweifle, dass die meisten Ihnen eine klare Definition davon geben werden. Was genau ist "Wahrscheinlichkeit"? Was ist eine "Distribution"? Die Terminologie in der Statistik ist noch verwirrender. Die meisten Bachelor-Bücher, die ich gesehen habe, machen einen sehr schlechten Job, um dies zu erklären. Beispiele und Berechnungen sind nett, aber ohne klare Definitionen ist es nicht so hilfreich, wie man denkt. Aus meiner Erfahrung heraus war dies genau der Grund, warum ich als Student die Wahrscheinlichkeitstheorie hasste. Obwohl meine Interessen so weit wie möglich von der Wahrscheinlichkeit entfernt sind, schätze ich das Thema jetzt, weil ich mir schließlich selbst beigebracht habe, was die ganze Terminologie wirklich bedeutet. Ich entschuldige mich, dass dies nicht genau das ist, was Sie gefragt haben, aber angesichts der Tatsache, dass Sie eine solche Klasse unterrichten, dachte ich, dass dies ein nützlicher Rat wäre.
quelle