Die Studie bietet einen umfassenden Überblick über die 3D-Dichtbeschriftung, einer aufstrebenden Vision-Sprache-Überbrückungsaufgabe. Sie behandelt die Aufgabendefinition, Architekturklassifizierung, Datensatzanalyse, Bewertungsmetriken und eingehende Diskussionen.
Der Hauptrahmen der 3D-Dichtbeschriftung umfasst drei Hauptkomponenten: einen Szenenkodierer, ein Beziehungsmodul und einen Merkmalsdekoder. Das Beziehungsmodul ist eine Kernkomponente, die in den meisten bestehenden Arbeiten eingesetzt wird und einen integralen Bestandteil der Encoder-Decoder-Struktur darstellt.
Die bestehenden Ansätze können basierend auf ihrem Forschungsschwerpunkt und ihrer Forschungsstrategie klassifiziert werden. In Bezug auf den spezifischen Forschungsschwerpunkt können diese Methoden grob in drei Gruppen eingeteilt werden: Beziehungsmodellierung, gemeinsame Modellierung und andere Ansätze. Hinsichtlich der Forschungsstrategie zur Bewältigung der 3D-Dichtbeschriftungsaufgabe können die bestehenden Modelle in zwei Kategorien eingeteilt werden: die "Erkennung-dann-Beschriftung"-Kaskadenstrategieund die "Erkennung-und-Beschriftung"-Parallelstrategie.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Ting Yu,Xiao... klo arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07469.pdfSyvällisempiä Kysymyksiä