Gute PCA-Beispiele für den Unterricht

10

Ich unterrichte eine Klasse von Ingenieuren, Sozialwissenschaftlern und Computerprogrammierern in linearer Algebra. Wir haben gerade eine Singularwertzerlegung durchgeführt, und wir haben einen zusätzlichen Tag, daher dachte ich, ich würde über die Beziehung zwischen Singularwertzerlegung und Hauptkomponentenanalyse sprechen. Ich habe den theoretischen Teil der Vorlesung gut geschrieben, aber es fällt mir schwer, gute Beispiele zu finden. Hier sind die Einschränkungen:

  • Ich möchte Bilder zeigen. Im Idealfall sollten die Grafiken für sich alleine gut funktionieren: Achsen und Datenpunkte im Streudiagramm sollten beschriftet sein. Englische Wörter sind besser als lateinische Artennamen.

  • Die zu untersuchende Frage sollte interessant sein. Die Morphologie nigerianischer Fische ist zwar wichtig, aber kein guter Weg, um die Aufmerksamkeit einer Klasse zu erregen.

  • Im Gegensatz zum vorhergehenden Punkt: Nichts über menschliche Rassenunterschiede; nichts über Intelligenztests. Das würde zu einer lebhaften Diskussion führen, die nichts mit den mathematischen Techniken zu tun hätte.

  • Die mathematische Analysemethode sollte grundsätzlich reine PCA sein. Das DW-NOMINATE-Projekt ist zwar fantastisch, verwendet jedoch PCA als Ausgangspunkt, gefolgt von einem viel komplizierteren Algorithmus für das Bergsteigen.

Ich würde denken, das wäre einfach. Ich kann mir leicht ein Dutzend lustiger Analyseprojekte vorstellen, die ich durchführen könnte, wenn ich die Zeit hätte, die Daten zu sammeln: Nehmen Sie an den Umfragen von Pew Research teil und sehen Sie, ob PCA die von Libertären geliebte sozial- und fiskalpolitische Achse wiedererlangt. Nehmen Sie ein Dutzend Messungen der typischen physikalischen Eigenschaften von Hunderassen vor und prüfen Sie, ob PCA den Cluster "Schäferhund" finden kann. Usw. usw. Ich suche jemanden, der die Arbeit bereits erledigt hat, damit ich sie vorführen kann.

Ich fürchte, die Zeitleiste hier ist ziemlich eng: Ich unterrichte morgen Nachmittag (Montag). Ich habe den größten Teil des Wochenendes damit verbracht, PCA-Studien in verschiedenen interessanten Bereichen zu googeln und immer wieder festzustellen, dass sie nicht gut passen.

David E Speyer
quelle
1
Die Morphologie nigerianischer Fische würde ausreichen, um meine Aufmerksamkeit zu erregen (ich bin kein Biologe aus der Ferne). Ich weiß nicht, ob ich ungewöhnlich bin oder ob Sie die Fähigkeit von Menschen unterschätzen, sich für Dinge zu interessieren. Vielleicht ist es ein bisschen von jedem.
Glen_b -State Monica
1
@Glen_b Hier geht's scielo.cl/pdf/ijmorphol/v29n4/art60.pdf !
David E Speyer

Antworten:

4

In Shalizis Notizen finden Sie einige Schritt-für-Schritt-Anleitungen: http://www.stat.cmu.edu/~cshalizi/uADA/12/lectures/ch18.pdf , eine davon ist der Autodatensatz von R und eine andere Kunst- und Musikartikel aus der New York Times. (Das Thema eines Artikels aus den darin enthaltenen Wörtern abzuleiten, ist ein sehr aktives Forschungsgebiet.) Wenn Sie R nicht kennen / nicht lernen möchten, können Sie trotzdem seine Notizen und Grafiken verwenden.

Bearbeiten: Ich habe vergessen zu sagen, dass es auch einige gute Beispiele in einem Buch von Everitt und Hothorn gibt, das auf SpringerLink verfügbar ist. Soweit ich mich erinnere, handelt es sich bei einem Datensatz um Düsenjäger, und es gibt auch römische Töpferwaren.

Flunderer
quelle
2

Ich weiß, dass es für Ihren Vortrag zu spät ist, aber hier ist ein Beispiel mit olympischen Zehnkampfdaten, das ich beim Erlernen von PCA sehr hilfreich fand. Ein paar R-basierte Aufzeichnungen: http://factominer.free.fr/classical-methods/principal-components-analysis.html http://www.math.vu.nl/sto/onderwijs/multivar/ College2.pdf

jac
quelle
Da keiner der oben genannten Links mehr funktioniert, ist hier ein enger Ersatz: statweb.stanford.edu/~jtaylo/courses/stats202/olympic.html
MERose