Identifizieren von Ereignissen, die sich auf Daten in einem Absatz beziehen

13

Gibt es einen algorithmischen Ansatz zum Identifizieren der in einem Absatz angegebenen Daten, die mit bestimmten Ereignissen (Ausdrücken) im Absatz korrelieren?

Betrachten Sie beispielsweise den folgenden Absatz:

Im Juni 1970 leistete der große Führer den Eid. Erst nach dem Tod des Staatsministers im Mai 1972 übernahm er die Leitung des Landes. Während er bis Mitte 1980 von der Bevölkerung unterstützt wurde, begann sein Einfluss danach zu sinken.

Gibt es einen Algorithmus (deterministisch oder stochastisch) #, der ein 2-Tupel (Datum, Ereignis) erzeugen kann, bei dem das Ereignis laut Absatz an dem Datum aufgetreten sein muss ? Im obigen Fall:

  • (Juni 1970, großer Führer schwur)
  • (Mai 1972, übernahm die Zügel)

    oder noch besser

  • (Mai 1972, der große Führer übernahm die Zügel)
  • (1980, Einflussverlust)

Späterer Zusatz

check123
quelle
2
Dieses Problem scheint drei Phasen zu enthalten: 1) Daten extrahieren, 2) Ereignisse extrahieren und 3) beide Datensätze korrelieren. 1) ist sicherlich machbar und ich kann mir für 3) anständige Heuristiken vorstellen, aber wie soll man 2) lösen?
Raphael
1
@Raphael Schöne Umformulierung meiner Frage!
check123
Nun, tun Sie einige Informationen haben in Bezug auf 2), zB eine eingeschränkte Menge von interessanten Ereignissen (dh Wörter)? Möchten Sie alle Nomen / Verb-Paare extrahieren, solange sie ein Datum haben?
Raphael
Möchten Sie auch Zeitrahmen extrahieren? Betrachten Sie in Ihrem Beispiel (<= May 1972, death of the Minister of State)oder (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael
@Raphael Sorry für die (sehr) späte Antwort. Zu 2) Nein. Ich versuche einen verallgemeinerten Ansatz.
check123

Antworten:

4

Im Allgemeinen wird das Problem des Identifizierens von Daten und anderen zeitlichen Markierungen im Text als das Problem des Extrahierens von zeitlichen Referenzen bezeichnet . Über die verlinkte Suche gelangen Sie zu entsprechenden Artikeln.

Suresh
quelle
Wusste nicht, dass das Problem einen Namen hatte. Werde mehr darüber nachschlagen und sehen, ob ich etwas finden kann, das sich lohnt. :)
check123
2

Da Sie nach einem algorithmischen Ansatz fragen, werde ich so hartnäckig sein wie ein Algorithmus. Es tut mir leid, diese Frage so zu behandeln, aber da es sich nicht um ein komplexes theoretisches Problem handelt, werde ich die möglichen Ansätze zusammenfassen.

Frage: Können Sie mir eine algorithmische Definition eines Datums und eines bestimmten Ereignisses geben?

Wenn Sie können: Da Ihre Definition algorithmisch ist, handelt es sich wahrscheinlich um eine Art formale Grammatik , und Ihr Problem wird darin bestehen, diese Grammatik so abzustimmen, dass jeder zu berücksichtigende Fall erfasst wird. (Ich bin interessiert, ob Sie mir eine genaue Definition geben können, die keine formale Grammatik ist.)

Wenn Sie nicht können, können Sie zumindest Beispiele finden. Alles klar dann. Der beste und einzige Ansatz, den ich mir vorstellen kann, sind maschinelle Lernalgorithmen, die Sie trainieren müssen, um Ihre Daten und dann Ihre Ereignisse zu erkennen. (Mit einem Korpus von Sätzen, die von Hand kommentiert wurden) Dies ist jedoch ziemlich übertrieben im Vergleich zu einigen großen handgemachten regulären Ausdrücken, die wahrscheinlich den Job machen werden. Wenn Sie es wirklich wollen, denke ich, ist diese Art von Regexp, die als Parameter für den Lernalgorithmus angegeben wird, am effizientesten. Sie sollten jedoch Experten für maschinelles Lernen fragen.

Viel Glück damit, es ist viel einfacher, nur darüber zu sprechen (in beiden Fällen).

jmad
quelle
1
Trotzdem denke ich, dass das Kombinieren von Daten und Ereignissen definitiv einige stochastische Modelle erfordert.
Raphael
Daten in den meisten Formaten, die ich mit regulären Ausdrücken erfassen kann. Mit etwas Programmierlogik kann ich die Sätze um die Daten extrahieren. Das Problem ist dann, dass ich ein Modell oder eine Wahrscheinlichkeitsverteilung brauche, die bei einem bestimmten Satzmuster, Bsp .: Die Katze hat die Maus am 25. August gefressen. [<Artikel> <Substantiv> <Verb> <Artikel> <Substantiv> <Präposition> <Datum>] erscheint dann eine (Unter-) Menge des Musters, Die Katze hat die Maus gefressen (in unserem Fall), korreliert mit dem Datum y (25. August) mit Wahrscheinlichkeit z.
check123
@jmad Wenn es Ihnen nichts ausmacht, können Sie die Formatierung Ihres Beitrags anpassen? Die Verwendung des Zitatstils für ein Nichtzitat (oder ein Selbstzitat?) Ist eher verwirrend.
uli