Ich habe einen Datensatz wie diesen:
postID Sentence drugYesOrNo
1 He went out with his friends
2 He behaved nicely while talking with me
3 He stopped using drugs after a while 1
4 He did not meet any friend during last week
1 He slowly cut usage of drugs 1
2 He smiled like he is good
3 He did not seem happy with his situation
Wie Sie sehen, gibt es zwei Funktionen. Das erste Merkmal ist unser Satz und das zweite Merkmal zeigt, dass dieser Satz ein Zeichen dafür ist, dass der Patient seine Droge abgesetzt hat oder nicht.
Die erste Spalte zeigt den Satz, der Teil eines Absatzes ist. Zum Beispiel sind HIER Satz 1-4 ein Absatz, in dem wir sie aufgeteilt haben, um zu sehen, welcher Satz genau das Absetzen von Drogen zeigt . Satz 3 im ersten Absatz zeigt dies.
Im zweiten Fall ist Satz 1-3 Teil eines Absatzes. hier zeigt Satz eins, dass diese Person aufgehört hat, Drogen zu nehmen (was nicht gut ist, sollte die Person weitermachen)
Mein Ziel ist es daher, einen Textklassifizierer für tiefes Lernen auf meine Textdaten anzuwenden und ein Modell zu erstellen. Wenn ich also einen neuen Absatz erhalten habe, kann ich vorhersagen, ob die Person ihre Drogen abgesetzt hat oder nicht.
Erste Frage: Mit dieser Fallstudie kann welcher Deep-Learning-Textklassifizierer am besten funktionieren.
Zweitens haben wir, wie Sie sehen, den Absatz in eine Reihe von Sätzen geschnitten. In Wirklichkeit werden wir jedoch einen Absatz geben, um das Modell zu testen. Was ist Ihrer Meinung nach der beste Ansatz, um damit umzugehen?
Mir fiel ein, dass wir beim Testen und Empfangen eines Absatzes den Absatz erneut in Sätze aufteilen und diese Sätze dem Modell geben, aber ich bin mir nicht sicher, ob dies ein guter Ansatz ist.
Wir haben 900 dieser Sätze. Ich bin mir nicht sicher, ob es bei so vielen Daten falsch sein wird, einen Deep-Learning-Klassifikator darauf anzuwenden.
Ich weiß es zu schätzen, wenn Sie mir Ihren Standpunkt mitteilen :)
Update nach dem Lesen von Kommentaren
Ich habe ein paar Leute gebeten, einen solchen Datensatz für mich zu erstellen. Ich meine, einen Absatz betrachten, aufteilen und dann sagen, welcher Satz diese Bedeutung hat (Drogen stoppen oder nicht). Was wäre, wenn ich sie nicht bitten würde, explizit zu sagen, welcher Satz diese Bedeutung hat, und nur darauf hinzuweisen, welcher Absatz diese Bedeutung hat (Drogen stoppen oder nicht). Denken Sie, dass es eine gute Idee war, genau zu kennzeichnen, welcher Satz diese Bedeutung hat, und nicht welcher Absatz diese Bedeutung hat? Ich hoffe ich bin klar genug :)