Was sind gute Beispiele für Studenten?

9

Ich werde in der zweiten Hälfte dieses Semesters Statistik als Lehrassistent für CS-orientierte Studenten unterrichten. Die meisten Schüler, die an der Klasse teilgenommen haben, haben keinen Anreiz, das Fach zu lernen, und haben es nur für wichtige Anforderungen genommen. Ich möchte das Thema interessant und nützlich machen, nicht nur eine Klasse, die sie lernen, ein B + zu bestehen.

Als Doktorand in reiner Mathematik wusste ich wenig über die reale angewandte Seite. Ich möchte nach einigen realen Anwendungen der Statistik für Studenten fragen. Beispiele, die ich suche, sind solche (im Geiste) wie:

1) Das Anzeigen des zentralen Grenzwertsatzes ist für bestimmte große Stichprobendaten nützlich.

2) Geben Sie ein Gegenbeispiel an, dass der zentrale Grenzwertsatz nicht anwendbar ist (z. B. diejenigen, die der Cauchy-Verteilung folgen).

3) Zeigen, wie das Testen von Hypothesen in berühmten Beispielen aus der Praxis mit Z-Test, T-Test oder Ähnlichem funktioniert.

4) Zeigen, wie eine Überanpassung oder eine falsche Anfangshypothese zu falschen Ergebnissen führen kann.

5) Zeigen, wie der p-Wert und das Konfidenzintervall in (bekannten) realen Fällen funktionierten und wo sie nicht so gut funktionieren.

6) In ähnlicher Weise Fehler vom Typ I, Typ II, statistische Leistung, Ablehnungsstufe usw.α

Mein Problem ist, dass ich zwar viele Beispiele auf der Wahrscheinlichkeitsseite habe (Münzwurf, Würfelwurf, Ruine des Spielers, Martingale, zufälliger Spaziergang, Paradoxon der drei Gefangenen, Monty-Hall-Problem, Wahrscheinlichkeitsmethoden im Algorithmus-Design usw.), aber nicht weiß, wie viele kanonische Beispiele auf der Statistikseite. Was ich meine, sind ernsthafte, interessante Beispiele, die einen gewissen pädagogischen Wert haben, und es ist nicht extrem künstlich erfunden, was sehr distanziert vom wirklichen Leben zu sein scheint. Ich möchte den Schülern nicht den falschen Eindruck vermitteln, dass Z-Test und T-Test alles sind. Aufgrund meines reinen mathematischen Hintergrunds kenne ich jedoch nicht genügend Beispiele, um die Klasse für sie interessant und nützlich zu machen. Also suche ich Hilfe.

Das Niveau meines Schülers liegt bei Kalkül I und Kalkül II. Sie können nicht einmal zeigen, dass die Varianz der Standardnormalen per Definition 1 ist, da sie nicht wissen, wie der Gaußsche Kernel zu bewerten ist. Alles, was leicht theoretisch oder praktisch rechnerisch ist (wie hypergeometrische Verteilung, Arcsin-Gesetz im 1D-Random-Walk), wird also nicht funktionieren. Ich möchte einige Beispiele zeigen, die nicht nur "wie", sondern auch "warum" verstehen können. Ansonsten bin ich mir nicht sicher, ob ich durch Einschüchterung beweisen werde, was ich gesagt habe.

Bombyx mori
quelle
2
Aus heutiger Sicht scheint es ein wenig breit und nicht sehr fokussiert zu sein, dass "einige reale Anwendungen der Statistik für Studenten" nicht besonders für das QS-Format geeignet sind. Bestenfalls handelt es sich um eine Frage der großen Liste. Wenn (3) alleine zu breit und unkonzentriert sein mag, aber ein Besucher mit ein wenig Umformulierung sein könnte, und (4) alleine gut genug mit etwas mehr Fokus stehen könnte. (1) kann auf keinen Fall erfolgreich sein, da der zentrale Grenzwertsatz wirklich nichts darüber aussagt, was bei oder oder passiert . Es ist kein Ergebnis mit endlichen Stichproben. n = 1000 n = 10 10n=100n=1000n=1010
Glen_b -Reinstate Monica
3
Das Berry-Esseen-Theorem (von dem ich erwarte, dass Sie es nicht auf dieser Ebene unterrichten) könnte mit endlichen Stichproben verwendet werden. Informell werden Stichprobenmittel für bestimmte Verteilungen mit zunehmender Stichprobengröße natürlich immer normaler, aber wir können nicht wirklich sagen, dass dies der zentrale Grenzwertsatz ist, da das CLT darüber eigentlich nichts sagt. Um zu zeigen, dass sich die Dinge einer Normalverteilung stetig nähern, benötigen Sie außerdem eine Folge von Stichprobengrößen. In der realen Datenerfassung ist dies nur bei Daten üblich, die im Laufe der Zeit erfasst wurden (wenn Sie also von iid ausgehen, haben Sie möglicherweise Schwierigkeiten).
Glen_b -Rate State Monica
2
Es gibt einen realen Datensatz (aus einem Experiment - wenn auch etwas künstlich) - 40000 Münzwürfe - von hier
Glen_b - Monica am
1
Sie können ihnen etwas darüber zeigen, wie sich Stichprobenmittel in bestimmten Situationen mit zunehmender Stichprobengröße verhalten - das ist sehr nützlich. Es ist einfach nicht genau genug, es dem CLT zuzuordnen. Die Münzwurfdaten können dafür nützlich sein (ebenso wie Daten, die sie auf ähnliche Weise selbst erzeugen). Möglicherweise möchten Sie die Informationen unter dem Link lesen, bevor Sie die Daten erhalten, da die Daten ein wichtiges Merkmal aufweisen (das auch die Motivation ist, sie überhaupt zu sammeln).
Glen_b -Rate State Monica
1
Beispiele für fast alles, was Sie auflisten, finden Sie in guten Intro-Statistik-Texten wie Freedman, Pisani & Purves . (Ich habe auf die dritte Ausgabe verlinkt, die für weniger als 10 US- Dollar leicht zu finden ist . Jede Ausgabe reicht aus; die neueste Ausgabe enthält möglicherweise aktuellere Beispiele.)
whuber

Antworten:

1

Eine gute Möglichkeit kann darin bestehen, R ( http://www.r-project.org/ ) zu installieren und seine Beispiele für den Unterricht zu verwenden. Sie können auf die Hilfe in R mit den Befehlen "? T.test" usw. zugreifen. Am Ende jeder Hilfedatei finden Sie Beispiele. Für t.test zum Beispiel:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

Geben Sie hier die Bildbeschreibung ein

rnso
quelle
1

Ich schlage eine Anwendung des zentralen Grenzwertsatzes zur Vorbestimmung einer Stichprobengröße und zur Beantwortung von Fragen wie "Habe ich genügend Fragebögen verschickt" usw. vor.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf bietet ein gutes Beispiel aus der Praxis für die Anwendung des zentralen Grenzwertsatzes. Eine didaktische Strategie könnte sein:

Eine Theorie

* Machen Sie den Unterschied zwischen einer Stichprobenverteilung und der Verteilung einer Schätzung deutlich, z. B. durch die "flache" Verteilung des Würfelns gegenüber der Verteilung des Mittelwerts von N Würfeln (verwenden Sie R oder lassen Sie die Schüler sogar selbst mit Excel-Zeichnungen spielen -Wertverteilungen versus Mittelwertverteilung)

* Zeigen Sie die formelbasierte Berechnung von Perzentilen für die Verteilung des Mittelwerts an (da Sie tief in der Mathematik sind, möchten Sie möglicherweise die Formel ableiten) - dieser Punkt entspricht den Folien 10-17 in der oben verlinkten Darstellung

und dann (wie in Folie 20 aus der oben verlinkten Präsentation):

B) Anwendung

* zeigen, wie der zentrale Grenzwertsatz hilft, Stichprobengrößen für eine gewünschte Genauigkeit in Schätzungen des Mittelwerts zu bestimmen

Diese Anwendung B) ist das, was nach meiner Erfahrung Nicht-Statistiker von einem Statistiker erwarten - Beantwortung von Fragen vom Typ "Habe ich genug Daten?"

Statos
quelle
1

Da Sie CS-Studenten unterrichten, kann eine gute Anwendung des zentralen Grenzwertsatzes darin bestehen, den Mittelwert aus einem massiven Datensatz (dh> 100 Millionen Datensätze) zu schätzen. Es kann lehrreich sein zu zeigen, dass es nicht erforderlich ist, den Mittelwert für den gesamten Datensatz zu berechnen, sondern stattdessen aus dem Datensatz eine Stichprobe zu erstellen und den Mittelwert aus dem gesamten Datensatz / der Datenbank anhand des Stichprobenmittelwerts zu schätzen. Sie können noch einen Schritt weiter gehen, wenn Sie ein Dataset mit drastisch unterschiedlichen Werten für verschiedene Untergruppen simulieren möchten. Anschließend können die Schüler die geschichteten Stichproben untersuchen, um genauere Schätzungen zu erhalten.

Da es CS-Studenten gibt, möchten Sie möglicherweise ein Bootstrapping durchführen, um auch Konfidenzintervalle zu erhalten oder die Abweichungen komplexerer Statistiken abzuschätzen. Dies ist eine schöne Schnittstelle zwischen Statistik und Computer, da sie meiner Meinung nach zu einem größeren Interesse an dem Thema führen könnte.

StatsStudent
quelle
1

Ich habe zuerst einen Kommentar eingegeben, aber er wurde zu lang ...

Denken Sie daran, dass sie CS-Studenten sind. Sie werden ihnen nicht so gefallen wie Mathematikern (mit Algebren) oder Biologen, Ärzten (mit biologischen oder medizinischen Daten und klassischen Rezepten zum Testen guter alter Nullhypothesen). Wenn Sie genügend Freiheit haben, um die Ausrichtung der Vorlesung zu bestimmen, und wenn es darum geht, dass sie grundlegende Konzepte lernen, ist mein Rat, eine radikale Änderung der Ausrichtung vorzunehmen. Wenn andere Lehrer möchten, dass sie einige vordefinierte Aufgaben ausführen können, stecken Sie natürlich ein bisschen fest.σ

Meiner Meinung nach wird es ihnen gefallen, wenn Sie Schlussfolgerungen aus Sicht des "Lernens" und Tests aus Sicht der "Entscheidungstheorie" oder "Klassifizierung" präsentieren - kurz gesagt, sie werden angenommen Algorithmen zu mögen. Algorithmen grok!

Versuchen Sie außerdem, CS-bezogene Datensätze zu finden. Beispielsweise können die Dauer der Verbindungen und die Anzahl der Anforderungen pro Zeiteinheit an einen HTML-Server helfen, viele Konzepte zu veranschaulichen.

Sie werden es lieben, Simulationstechniken zu lernen. Lehmer-Generatoren sind einfach zu implementieren. Zeigen Sie ihnen, wie Sie andere Verteilungen simulieren, indem Sie das PDF invertieren. Wenn Sie daran interessiert sind, zeigen Sie ihnen den Ziggurat-Algorithmus von Marsaglia. Oh, und der MWC256-Generator von Marsaglia ist ein kleines Juwel. Die Diehard-Tests von Marsaglia (Tests zur Fairness einheitlicher Generatoren) können helfen, viele Konzepte von Wahrscheinlichkeit und Statistik zu veranschaulichen. Sie können sich sogar dafür entscheiden, die Wahrscheinlichkeitstheorie basierend auf "(unabhängigen) Strömen zufälliger Doppel, Oups, ich meine Real" zu präsentieren - das ist ein bisschen frech, aber es kann großartig sein.

Denken Sie auch daran, dass der Seitenrang auf einer Markov-Kette basiert. Dies ist keine leichte Sache, aber nach der Präsentation von Arthur Engel (ich denke, die Referenz ist der probabilistische Abakus - wenn Sie Französisch lesen, ist dieses Buch ein absolutes Muss ) können Sie leicht ein paar Spielzeugbeispiele präsentieren, die ihnen gefallen werden . Ich denke, dass CS-Wissenschaftsstudenten Discrete Markov-Ketten viel mehr mögen als Tests, auch wenn es schwieriger erscheint (Engels Präsentation macht es sehr einfach).t

Wenn Sie Ihr Fach genug beherrschen, zögern Sie nicht, originell zu sein. "Klassische" Vorlesungen sind in Ordnung, wenn Sie etwas unterrichten, mit dem Sie nicht vollständig vertraut sind. Viel Glück und wenn Sie einige Vorlesungsunterlagen veröffentlichen, lassen Sie es mich bitte wissen!

Elvis
quelle
1

Sie sagen, das sind Informatikstudenten. Was sind ihre Interessen, ist dies hauptsächlich theoretische Informatik oder Studenten, die hauptsächlich durch die Vorbereitung auf Jobs motiviert sind? Sie können uns auch die Kursbeschreibung mitteilen!

Unabhängig von Ihrer Antwort auf diese Fragen können Sie jedoch mit einigen praktischen Statistiken beginnen, die in informatischen Kontexten auftreten, wie z. B. (zum Beispiel) Webdesign. Diese Website hat von Zeit zu Zeit Fragen dazu, z. B. Conversion-Raten im Zeitverlauf oder /stats/96853/comparing-sales-person-conversion-rates oder AB Testen anderer Faktoren neben der Conversion-Rate .

Hier gibt es viele Fragen wie diese, anscheinend von Leuten, die mit Webdesign zu tun haben. Die Situation ist, dass Sie eine Webseite haben (sagen wir, Sie verkaufen etwas). Die "Conversion-Rate" ist, wie ich es verstehe, der Prozentsatz der Besucher, die eine bevorzugte Aufgabe ausführen (z. B. Kauf oder ein anderes Ziel, das Sie für Ihre Besucher haben). Dann fragen Sie als Webdesigner, ob Ihr Layout der Seite dieses Verhalten beeinflusst. Sie programmieren also zwei (oder mehr) Versionen der Webseite, wählen zufällig aus, welche Version einem neuen Kunden präsentiert werden soll, können die Conversion-Raten vergleichen und schließlich die Version mit der höchsten Conversion-Rate implementieren.

Dies ist ein Problem beim Entwurf eines Vergleichsexperiments, und Sie benötigen statistische Methoden, um Prozentsätze zu vergleichen, oder möglicherweise direkt die Kontingenztabelle von Entwürfen im Vergleich zu Konvertierung / keine Konvertierung. Dieses Beispiel könnte ihnen zeigen, dass Statistiken für sie in einem Webentwicklungsjob tatsächlich nützlich sein könnten! Und von der statistischen Seite aus eröffnet es viele interessante Fragen zur Gültigkeit von Annahmen ...

Um eine Verbindung zu Ihren Aussagen zum zentralen Grenzwertsatz herzustellen, können Sie fragen, wie viele Beobachtungen Sie benötigen, bevor Sie die Prozentsätze als normalverteilt behandeln können, und diese mithilfe von Simulationen untersuchen lassen ...

Sie können diese Site nach anderen Statistikfragen durchsuchen, die von Programmierertypen gestellt werden ...

kjetil b halvorsen
quelle
-2

Ich schlage vor, dass es vor guten Beispielen besser ist, sich auf klare Definitionen zu konzentrieren. Nach meiner Erfahrung ist Wahrscheinlichkeit und Statistik für Studenten ein Kurs voller Wörter, die keiner der Studenten versteht. Fragen Sie als Experiment Schüler, die gerade einen Wahrscheinlichkeitskurs abgeschlossen haben, was eine "Zufallsvariable" ist. Sie mögen Ihnen Beispiele geben, aber ich bezweifle, dass die meisten Ihnen eine klare Definition davon geben werden. Was genau ist "Wahrscheinlichkeit"? Was ist eine "Distribution"? Die Terminologie in der Statistik ist noch verwirrender. Die meisten Bachelor-Bücher, die ich gesehen habe, machen einen sehr schlechten Job, um dies zu erklären. Beispiele und Berechnungen sind nett, aber ohne klare Definitionen ist es nicht so hilfreich, wie man denkt. Aus meiner Erfahrung heraus war dies genau der Grund, warum ich als Student die Wahrscheinlichkeitstheorie hasste. Obwohl meine Interessen so weit wie möglich von der Wahrscheinlichkeit entfernt sind, schätze ich das Thema jetzt, weil ich mir schließlich selbst beigebracht habe, was die ganze Terminologie wirklich bedeutet. Ich entschuldige mich, dass dies nicht genau das ist, was Sie gefragt haben, aber angesichts der Tatsache, dass Sie eine solche Klasse unterrichten, dachte ich, dass dies ein nützlicher Rat wäre.

Nicolas Bourbaki
quelle
1
Ich bin mir nicht sicher, ob ich damit einverstanden bin - zumindest nicht in den meisten / allen Fällen. Für einige mag das konzeptionelle Verständnis, wie Sie vorschlagen, der Anwendung auf bestimmte Beispiele vorausgehen, für andere Studenten kann das konzeptionelle Verständnis (insbesondere für komplizierte Themen) nur durch die Verwendung eines besonders aufschlussreichen Beispiels zustande kommen.
Jsakaluk
Als ich ein Student war, hatte ich im Allgemeinen nicht viel Schwierigkeiten, Mathematik zu lesen und die Probleme dort zu lösen. Ich wusste, was ich tat und was ich tun musste. Die Wahrscheinlichkeitstheorie oder Statistik ist "einfacher" als die Fächer, die ich gelernt habe. Aber ich hatte keine Ahnung, was ich tat oder warum ich tun musste. Die Lehrbücher selbst waren für mich völlig wenig hilfreich. Nachdem ich sie gelesen hatte, verstand ich den Wortschatz nicht wirklich. Sicher, ich kann die Berechnungen durchführen, aber am Ende des Tages sah ich es nur als leeres Thema. Wenn ich diese Verwirrung hatte, tun es auch die nicht-mathematischen Schüler.
Nicolas Bourbaki
5
Ich frage mich, ob dies hilfreicher sein könnte, um wahrscheinlich sehr klugen Schülern mit reinem Mathematikabschluss beizubringen, als CS-Majors angewandte Statistik beizubringen.
Silverfish
@Silverfish Ich bin mir nicht sicher, ob mein Rat nur für Mathematikstudenten gilt. Man kann die Sprache der Maßtheorie entwickeln und zeigen, wie die Wahrscheinlichkeit darin ausgedrückt wird, ohne auf die Theorie einzugehen. Dies unterscheidet sich wirklich nicht von der Grundrechnung. Die meisten Bücher definieren zumindest ihre Begriffe, aber sie gehen nicht auf ihre Theorie ein. Wenn die Schüler verstanden haben, dass Statistik das umgekehrte Problem der Wahrscheinlichkeit ist und dass wir uns zum Beispiel um den Mittelwert "kümmern", weil er sich dem erwarteten Wert einer Zufallsvariablen annähert, können sie ihn viel mehr schätzen.
Nicolas Bourbaki