Ist Ihr Master in Informatik? Statistiken?
Wird 'Data Science' im Mittelpunkt Ihrer Arbeit stehen? Oder ein Nebenthema?
Ich gehe davon aus, dass Sie in Statistik sind und dass Sie Ihre Abschlussarbeit auf ein 'Data Science'-Problem konzentrieren möchten. Wenn ja, dann werde ich gegen den Strich gehen und vorschlagen, dass Sie nicht mit einem Datensatz oder einer ML-Methode beginnen sollten. Stattdessen sollten Sie nach einem interessanten Forschungsproblem suchen, das nur unzureichend verstanden wird oder bei dem sich ML-Methoden noch nicht als erfolgreich erwiesen haben oder bei dem es viele konkurrierende ML-Methoden gibt, von denen jedoch keine besser zu sein scheint als andere.
Betrachten Sie diese Datenquelle: Stanford Large Network Dataset Collection . Sie könnten zwar einen dieser Datensätze auswählen, eine Problemstellung erstellen und dann eine Liste von ML-Methoden ausführen, aber dieser Ansatz sagt Ihnen wirklich nicht viel darüber aus, worum es in der Datenwissenschaft geht, und meiner Meinung nach auch nicht führen zu einer sehr guten Masterarbeit.
Stattdessen können Sie Folgendes tun: Suchen Sie nach allen Forschungsarbeiten, die ML für eine bestimmte Kategorie verwenden - z. B. Collaboration-Netzwerke (auch als Co-Autorenschaft bezeichnet). Wie Sie jedes Papier zu lesen, versuchen, herauszufinden , was sie waren die Lage , mit jedem ML Verfahren zu erreichen und was sie zu Adresse nicht in der Lage waren. Achten Sie besonders auf ihre Vorschläge für "zukünftige Forschung".
Vielleicht verwenden sie alle dieselbe Methode, haben aber nie konkurrierende ML-Methoden ausprobiert. Oder vielleicht validieren sie ihre Ergebnisse nicht angemessen, oder vielleicht sind die Datensätze klein, oder vielleicht waren ihre Forschungsfragen und Hypothesen einfach oder begrenzt.
Am wichtigsten: Versuchen Sie herauszufinden, wohin diese Forschungsrichtung führt. Warum machen sie sich überhaupt die Mühe, das zu tun? Was ist daran wichtig? Wo und warum stoßen sie auf Schwierigkeiten?