Bài báo này giới thiệu LaVy, mô hình Ngôn ngữ Đa phương tiện Lớn (MLLM) tiếng Việt đầu tiên, và đề xuất bộ kiểm tra LaVy-Bench để đánh giá hiểu biết về ngôn ngữ hình ảnh tiếng Việt của các MLLM.
LaVy được xây dựng dựa trên kiến trúc LlaVA, sử dụng ba thành phần chính: Bộ mã hóa Hình ảnh, Bộ chiếu MLP và Mô hình Ngôn ngữ Lớn. Quá trình huấn luyện của LaVy được chia thành hai giai đoạn: Tiền huấn luyện và Tinh chỉnh. Trong giai đoạn tiền huấn luyện, mô hình được huấn luyện trên tập dữ liệu 708K cặp hình ảnh-chú thích. Giai đoạn tinh chỉnh sử dụng kỹ thuật tinh chỉnh hướng dẫn hình ảnh để tận dụng tối đa khả năng của MLLM trên các tác vụ đa phương tiện khác nhau.
Bộ kiểm tra LaVy-Bench bao gồm hai tác vụ: Trả lời câu hỏi về hình ảnh (VQA) và Đánh giá hiểu biết về ngôn ngữ hình ảnh trong ảnh thực tế. Kết quả thực nghiệm cho thấy LaVy vượt trội so với các mô hình cơ sở mBLIP trên cả hai tác vụ này.
Mặc dù LaVy đã đạt được kết quả ấn tượng, mô hình vẫn còn một số hạn chế như khả năng xử lý OCR, đếm đối tượng, v.v. do thiếu dữ liệu chất lượng cao cho các tác vụ này. Trong tương lai, nhóm nghiên cứu sẽ mở rộng khả năng của LaVy bằng cách bổ sung các hướng dẫn đa dạng để xử lý các tác vụ thách thức hơn.
To Another Language
from source content
arxiv.org
Дополнительные вопросы