Automatisches Parsen von Zitiertexten in wissenschaftlichen Referenzen

17

Gibt es eine Software (oder einen Pseudocode), die automatisch einen Textabschnitt scannt (entweder in das Tool eingefügt oder aus einer .doc / .pdf-Datei gelesen) und Zitationsdaten mithilfe von Standardformaten identifiziert? Die Daten würden dann in ihre konstituierenden Felder aufgeteilt und in XML, CSV oder einem anderen strukturierten Datenformat exportiert. Ich habe angeschaut cb2Bib es konnte jedoch nur das Jahr aus Referenzen im Harvard-Stil extrahiert werden, was nicht ausreicht.

Alistair Knock
quelle
Möchten Sie den Text selbst oder nur den Referenzabschnitt scannen?
innaM
Nur die Referenzen - es wäre wahrscheinlich ein Dokument mit persönlichen Veröffentlichungen.
Alistair Knock

Antworten:

4

Sehen Sie sich diese Liste von Citation Parsern an, die XML aus Eingabetext generieren können:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (im Wartungsmodus ab 1. August 2012)
http://opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Mit Freecite könnte man eine curl Befehl zum Einreichen von Zitaten wie folgt (in PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
KEG
quelle
Eine andere Möglichkeit ist github.com/inspirehep/refextract . Es basiert nicht auf ML, hat aber bei meinen Tests sehr gut funktioniert.
Josir
3

Zur Zeit (2017) scheint das aktivste Open-Source-Projekt dies zu sein Anystyle Parser (letzte Version 07-2016). Es kann über ein Webinterface, eine API oder als RubyGem heruntergeladen werden.

Sie erwähnen auf ihrer Website ausdrücklich, dass die Implementierung von ParsCit (letzte Version 2013?) Und FreeCite (letztes Commit 2009) inspiriert ist.

Bilden Sie auch ihre Website:

AnyStyle Parser verwendet leistungsstarke Heuristiken für maschinelles Lernen, die auf basieren   Bedingte Zufallsfelder, die von jedem unter Verwendung von trainiert werden können   eingebauter Editor.

Das ist eine wirklich coole Funktion, die dies zur interessantesten Implementierung macht (imho). Das Training scheint ziemlich unkompliziert zu sein, wie in der API-Dokumentation . Sie geben nur einige manuell korrigierte Ergebnisse ein und führen das aus Anystyle.parser.train Befehl. Ich bin mir nicht sicher, ob ParsCit und FreeCite dies ebenfalls unterstützen, aber wenn sie dies nicht tun, scheint mir dies ein großer Unterschied zu sein.

Wouter
quelle
Mit Ausnahme von Anystyle Parser werden sie alle in der derzeit am höchsten bewerteten Antwort erwähnt. Was macht sie eigentlich aus? Welche Vor- oder Nachteile hätte die ursprüngliche Frage?
Seth
Ach ja. Ich bearbeite und verbessere meine Antwort. Danke für den Hinweis.
Wouter
Sieht aus, als wäre es jetzt tot.
expert
1
@Brandon: Ich habe hier ein HOWTO gepostet: github.com/inukshuk/wapiti-ruby/issues/3
Wouter
1
Das sieht gut aus, danke! Als jemand, der Rubin noch nie berührt hat, wird es in der Tat sehr hilfreich sein.
Brandon
2

Probieren Sie ein Werkzeug wie Regex Buddy oder Expresso .

Wenn Sie kein Programmierer sind, können reguläre Ausdrücke ein bisschen einschüchternd sein, aber sie sind wirklich nicht so schwer, besonders mit einem anständigen Werkzeug wie einem der oben genannten.

Hier ist ein Beispiel für jemanden, der reguläre Ausdrücke zum Extrahieren von Zitaten verwendet:

Zitat, das regulären Ausdruck analysiert

Ash
quelle
1

Mendeley sollte dies tun können. Es kann PDFs importieren und die Metadaten dann nach BibTeX, RIS und EndNote XML exportieren. Es kann kostenlos heruntergeladen werden und ist plattformübergreifend.

Bearbeiten: Ich habe dies an einigen Dokumenten getestet. Der PDF-Import scheint für Referenzen, die korrekt formatiert sind, gut zu funktionieren. Für ein Dokument, das ich mit LaTeX erstellt habe, alle Referenzen mit dem Autor in der Form "Smith, J." oder "J. Smith" usw. wurden gut importiert. Wenn der Autor eine Firma ist (ein einzelnes Wort) oder die Referenz unvollständig ist, funktioniert dies nicht. Die extrahierten Referenzen können einfach bearbeitet und in BibTeX usw. exportiert werden.

sblair
quelle
2
"Diese Funktion wurde in Mendeley 0.9.7 entfernt, da sie eine beträchtliche Menge an Ressourcen (Client- und Serverseite) verbrauchte, ohne einen ausreichenden Wert bereitzustellen. Wir planen, sie in Zukunft in verbesserter Form wieder einzuführen." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…
iceman
1

Ich habe gesehen, dass ein Westlaw-Programm dies für legale Zitate tut, aber das ist wahrscheinlich nicht das, wonach Sie suchen. Referenzmanager Vielleicht mache ich so etwas für akademische Formate, aber ich habe es nie benutzt.

Kaypro II
quelle
0

Zotero ist ein Plugin für Firefox, das dies für Webinhalte tut. Ich bin mir nicht sicher, ob es ein ähnliches Tool für Dokumente / PDFs gibt

Abhinav
quelle
1
Ich weiß, dass dies nicht genau das ist, wofür Zotero entwickelt wurde, aber wenn Sie Firefox auf eine Textdatei oder HTML-Datei mit den relevanten Daten verweisen, erkennt Zotero möglicherweise die Verweise und Sie können sie der Zotero-Bibliothek hinzufügen und die exportieren ganze Bibliothek in jedes gewünschte Format (ich weiß, Zotero unterstützt eine Reihe von Formaten). Dies wäre jedoch für eine große Anzahl von Dateien schmerzhaft.
nedned
Ich verstehe nicht, wie Zotero das macht, was der OP verlangt. Ich habe es installiert, aber es scheint keine Möglichkeit zu geben, eine Referenz zu analysieren.
Rikki
Zotero analysiert Zitate von speziell codierten Websites, nicht von normalem Text.
Ochado
0

Dies gehört wahrscheinlich eher als Kommentar zu @Abhinav, aber zotero verarbeitet definitiv nur strukturierte Daten, wie Sie hier beschrieben finden würden:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Ein interessanter Hack könnte der Versuch sein, ein Programm zu schreiben, das die einzelnen Zitate als Suchabfrage in Ihrer bevorzugten Datenbank verwendet, und dann etwas wie zotero verwendet, um die Ref-Informationen zu generieren. Sie können auch strukturierte Informationen von Diensten wie citeUlike herunterladen. Lassen Sie mich wissen, wenn Sie am Ende so etwas tun! (Wenn Sie es tun, setzen Sie es auf Github;).

Dav Clark
quelle