Die Studie präsentiert einen neuartigen Datensatz mit rund 2500 Sätzen aus dem Zeitraum von 300 v. Chr. bis 900 n. Chr., die sexuelle Semantiken (medizinisch, erotisch usw.) enthalten. Es werden verschiedene Satzklassifizierungsansätze und unterschiedliche Eingabeeinbettungsschichten evaluiert, die allesamt einfache tokenbasierte Suchen übertreffen. Der Einbezug von idiolektalen und soziolektalen Metadaten-Einbettungen (Jahrhunderte, Autor, Textart) führt jedoch zu Überanpassung. Die Ergebnisse zeigen die Effektivität des Ansatzes, mit einer Präzision von 70,60% und einer True-Positive-Rate (TPR) von 86,33% unter Verwendung von HAN. Der Einfluss der Datensatzgröße auf die Modellleistung wird evaluiert (420 statt 2013 Trainingsstichproben), wobei die Modelle zwar schlechter abschneiden, aber immer noch eine hohe Präzision und TPR bieten, auch ohne MLM, jeweils 69% und 51%. Die Aufmerksamkeitsmechanismen werden analysiert, um Geisteswissenschaftlern bei der Erstellung weiterer Daten zu unterstützen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문