本論文は、スケッチのセマンティックセグメンテーションに関する新しいアプローチを提案している。
まず、ストロークの構造的情報と位置関係を効果的に捉えるために、オートエンコーダーネットワークにストロークの距離場回帰タスクを追加する。これにより、ストロークの形状と位置情報をより良く表現できる。
次に、ストロークを一つの単位として扱い、自己回帰型のTransformerネットワークを用いて、ストロークグループに対してラベル付けを行う。これにより、既にラベル付けされたストロークと残りのストロークの文脈情報を活用できる。
提案手法は、既存の最先端手法と比較して、ストロークアキュラシー、グループアキュラシー、コンポーネントアキュラシーの全ての指標で優れた性能を示している。特に、コンポーネントアキュラシーでは大幅な改善が見られる。
さらに、クロスカテゴリーでの学習や、セマンティック aware なデータ拡張手法の提案など、今後の研究に資する知見も示されている。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania