Ich unterrichte einen Einführungskurs in Wirtschaftsgeographie. Um meinen Schülern zu helfen, ein besseres Verständnis für die Arten von Ländern in der heutigen Weltwirtschaft und ein Verständnis für Datenreduktionstechniken zu entwickeln, möchte ich eine Aufgabe erstellen, die eine Typologie verschiedener Arten von Ländern erstellt (z. B. einkommensstarke Länder mit hohem Einkommen) Wertschöpfung mfg lange Lebenserwartung; Exporteur von Rohstoffen mit hohem Einkommen mittelhohe Lebenserwartung; Deutschland ist ein Element des ersten Typs und Jemen ein Beispiel des zweiten Typs). Dies würde öffentlich verfügbare UNDP-Daten verwenden (die, wenn ich mich richtig erinnere, sozioökonomische Daten zu etwas weniger als 200 Ländern enthalten; leider sind keine regionalen Daten verfügbar).
Vor dieser Zuweisung wäre eine andere, die sie auffordert (unter Verwendung derselben --- weitgehend Intervall- oder Verhältnisstufe --- Daten), Korrelationen zwischen denselben Variablen zu untersuchen.
Ich hoffe, dass sie zunächst eine Intuition für die Art der Beziehungen zwischen verschiedenen Variablen entwickeln (z. B. eine positive Beziehung zwischen Lebenserwartung und [verschiedenen Indikatoren für] Wohlstand; eine positive Beziehung zwischen Wohlstand und Exportvielfalt). Bei Verwendung der Datenreduktionstechnik wären die Komponenten oder Faktoren dann intuitiv sinnvoll (z. B. erfasst Faktor / Komponente 1 die Bedeutung von Wohlstand; Faktor / Komponente 2 erfasst die Bedeutung von Bildung).
Angesichts der Tatsache, dass es sich um Studenten des zweiten bis vierten Studienjahres handelt, die häufig nur begrenzt allgemein mit analytischem Denken vertraut sind, welche Technik zur Reduzierung einzelner Daten würden Sie als am besten geeignet für die zweite Aufgabe vorschlagen? Da es sich um Bevölkerungsdaten handelt, sind Inferenzstatistiken (p-Werte usw.) nicht unbedingt erforderlich.
quelle
Ein kurzer Hinweis: Unabhängig davon, welche der oben genannten Techniken Sie verwenden, sollten Sie zuerst die Verteilungen Ihrer Variablen überprüfen, da viele von ihnen "erfordern", dass Sie sie zuerst mithilfe eines Logarithmus transformieren. Wenn Sie dies tun, werden einige der Beziehungen viel besser sichtbar als bei Verwendung der ursprünglichen Variablen.
quelle
Sie können die CUR-Zerlegung als Alternative zu PCA verwenden. Für die CUR-Zerlegung können Sie auf [1] oder [2] verweisen. Bei der CUR-Zerlegung steht C für die ausgewählten Spalten, R für die ausgewählten Zeilen und U für die Verknüpfungsmatrix. Lassen Sie mich die Intuition hinter der CUR-Zerlegung wie in [1] umschreiben;
Das Schöne an CUR ist, dass Basisspalten tatsächliche Spalten (oder Zeilen) sind und besser zu interpretieren sind als PCA (das trancierte SVD verwendet).
Der in [1] angegebene Algorithmus ist einfach zu implementieren und Sie können damit spielen, indem Sie die Fehlerschwelle ändern und eine unterschiedliche Anzahl von Basen erhalten.
[1] MW Mahoney und P. Drineas, "CUR-Matrixzerlegungen für eine verbesserte Datenanalyse", Proceedings of the National Academy of Sciences der Vereinigten Staaten von Amerika, vol. 106, Jan. 2009, S. 697-702.
[2] J. Sun, Y. Xie, H. Zhang und C. Faloutsos, „Weniger ist mehr: Kompakte Matrixzerlegung für große, spärliche Graphen“, Proceedings of the Seventh SIAM International Conference on Data Mining, Citeseer, 2007, p . 366.
quelle
Abhängig von Ihren Zielen kann die Klassifizierung von Registern in Gruppen am besten durch eine Clustering-Methode erreicht werden. Für eine relativ kleine Anzahl von Fällen ist hierarchisches Clustering normalerweise am besten geeignet, zumindest in der Explorationsphase, während Sie für eine ausgefeiltere Lösung möglicherweise auf einen iterativen Prozess wie K-means zurückgreifen. Je nachdem, welche Software Sie verwenden, ist es auch möglich, einen Prozess zu verwenden, der sich in SPSS befindet, aber ich weiß nicht, wo sonst, genannt zweistufiges Clustering, das schnell, aber undurchsichtig ist und gute Ergebnisse zu liefern scheint.
Die Clusteranalyse liefert eine Klassifizierungslösung, die die Varianz zwischen Gruppen maximiert und gleichzeitig die Varianz innerhalb dieser Gruppen minimiert. Es wird wahrscheinlich auch Ergebnisse liefern, die leichter zu interpretieren sind.
quelle
Ich schlage vor, Variablen und Beobachtungen (separat) zu gruppieren, um den Datensatz zu beleuchten. Variables Clustering (z. B. mit Spearmean)ρ2 als Ähnlichkeitsmaß wie in der Funktion des R-
Hmisc
Paketsvarclus
) hilft man zu sehen, welche Variablen "zusammen laufen".quelle
Eine andere Möglichkeit wäre die Verwendung von selbstorganisierenden Karten (SOMs). Haben Sie eine Vorstellung davon, welche Software die Schüler verwenden werden? Ich weiß, dass R zum Beispiel einige SOM-Implementierungen hat. SOMs können jedoch Ihren Test "Komponentenfaktoren sind intuitiv sinnvoll" nicht bestehen. (Nicht unbedingt auch bei PCA ...)
quelle