Einzelne E-Mails aus einem E-Mail-Thread extrahieren

7

Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen.

Betrachten Sie zum Beispiel die folgende Meldung.

Hi,

Can you offer me a better discount.

Thanks,
Mr.X
Customer Relations.

---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------

Hello Mr.X,

Does the below work out. Do let us know your thoughts.

Thanks,
Mr.Y

Sales Manager.

Der Grund, warum wir die E-Mails aufteilen möchten, ist, dass wir eine Stimmungsanalyse durchführen möchten. Wenn wir die E-Mail nicht teilen können, sind die Ergebnisse falsch.

Ich habe mich umgesehen und dieses sehr umfassende Forschungspapier gefunden . Fand auch eine Implementierung von Mail Gun namens Mail Gun Talon . Leider funktioniert es bei bestimmten Mustern nicht gut.

Zum Beispiel, wenn die zweite Nachricht im E-Mail-Thread wie bricht

---------- Forwarded message ---------- 

anstelle der oben genannten

---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------

Meine Frage ist, dass viele Leute, die versuchen, solche Sachen zu machen, definitiv mit solchen Problemen konfrontiert gewesen wären, aber dennoch bleibt die Gegend ziemlich schattig. Gibt es eine ziemlich solide Implementierung des Papiers oder etwas anderes, das E-Mails ziemlich gut aufteilt?

Gieriger Codierer
quelle
Ist dieser Link für Sie nicht hilfreich?
Abhishek Verma
Es beschreibt das Problem auf allgemeine Weise, aber ich möchte nur sehen, ob es ein fertiges Dienstprogramm / eine Bibliothek dafür gibt. Es ist hilfreich, aber es gibt zu viel zu studieren und umzusetzen.
Gieriger Coder
1
Sie wissen nicht, ob Sie es bereits gesehen haben, aber der Autor des von Ihnen zitierten Papiers hat auf seiner Website eine Implementierung ihrer Methodik in einer Software namens Jangada zur Verfügung gestellt .
Bogas
@ Bogas: Danke. Das habe ich noch nie gesehen. Werfen Sie einen Blick darauf, wie es funktioniert.
Greedy Coder

Antworten: