Ich habe dieses Nebenprojekt, bei dem ich die lokalen Nachrichten-Websites in meinem Land crawle und einen Kriminalitätsindex und einen Index für politische Instabilität erstellen möchte. Ich habe bereits den Informationsabrufteil des Projekts behandelt. Mein Plan ist zu tun:
- Unbeaufsichtigte Themenextraktion.
- Nahezu doppelte Erkennung.
- Beaufsichtigte Einstufung und Ereignisstufe (Kriminalität / politisch - hoch / mittel / niedrig).
Ich werde Python und Sklearn verwenden und habe bereits die Algorithmen erforscht, die ich für diese Aufgaben verwenden kann. Ich denke, 2. könnte mir einen Relevanzfaktor für eine Geschichte geben: Je mehr Zeitungen über eine Geschichte oder ein Thema veröffentlichen, desto relevanter für diesen Tag.
Mein nächster Schritt besteht darin, den monatlichen, wöchentlichen und täglichen Index (bundesweit und nach Städten) auf der Grundlage meiner Funktionen zu erstellen. Ich bin hier ein wenig verloren, da die "Instabilitätsempfindlichkeit" mit der Zeit zunehmen könnte. Ich meine, der Index aus dem größten Instabilitätsereignis des letzten Jahres könnte niedriger sein als der Index für dieses Jahr. Auch wenn feste Skala 0-100 verwendet werden soll oder nicht.
Ich möchte später in der Lage sein, Vorfälle auf dieser Basis vorherzusagen, zB ob die Abfolge der Ereignisse in den letzten Wochen zu einem größeren Vorfall führt. Aber im Moment bin ich froh, dass die Klassifizierung funktioniert und das Indexmodell erstellt wird.
Ich würde mich über jeden Hinweis auf ein Papier, relevante Lesungen oder Gedanken freuen. Vielen Dank.
PD: Entschuldigung, wenn die Frage nicht hierher gehört.
UPDATE : Ich habe noch nicht „machen“, aber vor kurzem gab es eine Nachricht über eine Gruppe von Wissenschaftlern , die in einem System arbeiten , um die Ereignisse vorhersagen , mit Nachrichtenarchive und eine entsprechende Papier veröffentlicht Mining die Web Zukünftige Ereignisse vorherzusagen (PDF ).
quelle
Antworten:
Berücksichtigen Sie Variationen beim GINI-Score.
Es ist normalisiert und die Ausgabe reicht von 0 bis 1.
BEARBEITEN:
Warum GINI "cool" oder zumindest potenziell angemessen ist:
Es ist ein Maß für Ungleichheit oder Ungleichheit. Es wird als skalierungsfreies Maß verwendet, um die Heterogenität von skalierungsfreien Netzwerken, einschließlich unendlicher und zufälliger Netzwerke, zu charakterisieren. Es ist nützlich beim Erstellen von CART-Bäumen, da es das Maß für die Aufteilungskraft einer bestimmten Datenaufteilung ist.
Wegen seiner Reichweite:
Weil es normalisiert ist:
Verweise:
quelle