本研究では、ドット付きアラビア語有効期限日の画像を入力として受け取り、塗りつぶされた有効期限日の画像を出力するLCBVAEアーキテクチャを提案している。
まず、アラビア語ドット付きTTFフォントを使用して合成データセットを生成した。次に、LCBVAE (Ladder Bottom-up Convolutional Bidirectional Variational Autoencoder) アーキテクチャを設計した。LCBVAEは、エンコーダとデコーダにボトムアップ型の畳み込み層を使用し、潜在空間に双方向LSTMを導入している。
さらに、カスタマイズしたCRNNモデルを訓練し、LCBVAEで生成された再構築画像からアラビア語の有効期限日を検出・デコードできるようにした。
実験の結果、LCBVAEアーキテクチャを使用することで97%の高精度な画像変換が可能であることが示された。また、潜在空間の次元数を1024まで大きくすることで、汎化性能が向上することも確認された。
本手法は、製造段階での自動仕分けシステムや小売店での手動入力の問題を解決できる可能性がある。さらに、アラビア語ドット付き数字認識の分野における新しい知見を提供するものと期待される。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Ahmed Zidane... a las arxiv.org 10-02-2024
https://arxiv.org/pdf/2310.14069.pdfConsultas más profundas