Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen.
Betrachten Sie zum Beispiel die folgende Meldung.
Hi,
Can you offer me a better discount.
Thanks,
Mr.X
Customer Relations.
---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------
Hello Mr.X,
Does the below work out. Do let us know your thoughts.
Thanks,
Mr.Y
Sales Manager.
Der Grund, warum wir die E-Mails aufteilen möchten, ist, dass wir eine Stimmungsanalyse durchführen möchten. Wenn wir die E-Mail nicht teilen können, sind die Ergebnisse falsch.
Ich habe mich umgesehen und dieses sehr umfassende Forschungspapier gefunden . Fand auch eine Implementierung von Mail Gun namens Mail Gun Talon . Leider funktioniert es bei bestimmten Mustern nicht gut.
Zum Beispiel, wenn die zweite Nachricht im E-Mail-Thread wie bricht
---------- Forwarded message ----------
anstelle der oben genannten
---- On Wed, 10 May 2017 04:05:16 -0700 [email protected] wrote ------
Meine Frage ist, dass viele Leute, die versuchen, solche Sachen zu machen, definitiv mit solchen Problemen konfrontiert gewesen wären, aber dennoch bleibt die Gegend ziemlich schattig. Gibt es eine ziemlich solide Implementierung des Papiers oder etwas anderes, das E-Mails ziemlich gut aufteilt?
quelle
Antworten:
Zunächst können Sie das Format von ARPA-Internet-Textnachrichten lesen .
Sie müssen sich mit der Regex-Analyse befassen, wenn Sie aussagekräftige Informationen aus den E-Mails extrahieren möchten. Ich würde das Oreilly-Buch über Regex vorschlagen oder über reguläre Ausdrücke lesen .
Es gibt auch ein Tool zum Erfassen von Text aus eingehenden E-Mails und zum Schreiben in eine Textdatei .
quelle