本論文では、ワインラベル認識の分野における重要な課題である不十分なトレーニングデータに取り組むため、新しい3Dビューポイントデータ拡張手法を提案している。
まず、3Dシリンダー表面をを2D表現に変換し、ラベルの縦方向の線サンプルを抽出する。次に、これらの線サンプルを別の姿勢のワインボトル画像にマッピングすることで、視覚的に現実的な合成画像を生成する。
提案手法は、従来の2Dデータ拡張手法では実現できない、ワインラベルの複雑な組み合わせのテキストとロゴを効果的に合成することができる。
提案手法を用いて拡張したトレーニングデータを用いて、ビジョントランスフォーマー(ViT)アーキテクチャを特徴量学習に適用することで、ワインラベルの高精度な1ショット認識を実現している。
実験結果から、提案手法は従来の2Dデータ拡張手法に比べて、ワインラベル認識の精度を大幅に向上させることができることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yueh-Cheng H... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08820.pdfDeeper Inquiries