He, J., Lin, H., Wang, Q., Fung, Y., & Ji, H. (2024). Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks. arXiv preprint arXiv:2410.04055.
本研究は、視覚と言語モデル(VLM)の自己修正能力を、推論段階とファインチューニング段階の両方において調査することを目的とする。具体的には、VLMが外部フィードバックなしに推論のみを通して自己修正できるかどうか、そして自己修正プロセスに基づいてパフォーマンスを向上させ、同様のミスを回避できるかどうかを検証する。
本研究では、自己修正学習(SCL)と呼ばれる新しいアプローチが提案されている。SCLは、直接選好最適化(DPO)ファインチューニングを用いて、VLMが自己生成した自己修正選好データから学習し、自己改善することを可能にする。選好データセットであるSELFCORSETは、推論中の固有の自己修正プロセスに基づいて構築される。このプロセスでは、モデルは各サンプルに対して初期応答と洗練された応答を生成する。初期応答と洗練された応答で異なる回答が得られたサンプルについては、正しい応答を選好として選択し、誤った応答を非選好として選択する。
実験の結果、VLMは固有の自己修正に苦労するものの、自己修正サンプルから恩恵を受けることができることが示された。SCLを用いてファインチューニングされたVLMは、以前のミスを回避する能力が向上し、以前のVLM向け選好最適化手法と比較して優れたパフォーマンスを示した。このことは、VLMが、良好な自己修正と不良な自己修正の両方が選好ファインチューニングのための貴重な選好情報と非選好情報を提供するため、生成された自己修正データを利用することで自己改善できることを示唆している。
本研究は、VLMが自己生成した自己修正データから学習することで、外部フィードバックなしに自己改善し、より正確な応答を直接生成できるようになることを示した。
本研究は、VLMの自己修正能力に関する新たな知見を提供し、VLMのパフォーマンス向上のための新しい道を切り開くものである。
本研究では、主に多肢選択問題ベンチマークを用いて評価を行った。今後の研究では、オープンエンドのマルチモーダルタスクにおける自己修正能力を評価する必要がある。また、自己修正サンプルのサイズと多様性をさらに大きくすることで、SCLの有効性をさらに高めることができると考えられる。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Jiayi He, He... pada arxiv.org 10-08-2024
https://arxiv.org/pdf/2410.04055.pdfPertanyaan yang Lebih Dalam