Dieser Artikel befasst sich mit dem Problem des Adressabgleichs. Adressabgleich ist eine einzigartige Teilmenge natürlich vorkommender Texte, bei denen herkömmliche Methoden des Zeichenkettenabgleichs in der Regel nicht effektiv sind.
Der Artikel beginnt mit der Beschreibung eines Frameworks zur automatischen Generierung von Paaren übereinstimmender und nicht übereinstimmender Adressen in englischer Sprache. Dieses Framework ermöglicht es, Adressabgleichsaufgaben unterschiedlicher Schwierigkeitsgrade zu erstellen.
Anschließend werden verschiedene Algorithmen und Modelle zum Lösen dieser Aufgabe vorgestellt, darunter sowohl auf Distanzmaßen basierende Ansätze als auch ein auf dem ESIM-Modell basierender Deep-Learning-Ansatz. Die Leistungsfähigkeit dieser Methoden wird anhand von Präzision, Rückruf und Genauigkeit evaluiert.
Die Ergebnisse zeigen, dass der ESIM-Ansatz mit Zeichenketteneinbettungen die beste Gesamtleistung erzielt, insbesondere in Bezug auf Genauigkeit. Andere Ansätze, wie segmentbasierte Methoden, erzielen ebenfalls gute Ergebnisse und sind deutlich schneller. Die Arbeit schließt mit einem Ausblick auf mögliche Verbesserungen und zukünftige Forschungsrichtungen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문