Core Concepts
大規模言語モデルと強化学習を組み合わせることで、ウェブ上のタスクを効率的に完了するエージェントを訓練することができる。
Abstract
本研究では、ウェブナビゲーションタスクを効率的に処理・分析するための新しいアプローチを提案している。具体的には以下の取り組みを行っている:
監視学習(SL)と強化学習(RL)の手法を組み合わせ、MiniWoB ベンチマークを活用して両手法の長所を活かす。
従来のモデルが示す課題、すなわちHTMLコンテンツの理解が表面的で、むしろターゲット要素を記憶する傾向があることを明らかにし、これを改善するための手法を提案する。
提案手法により、SLでは従来のSL手法を上回る43.58%の平均精度を達成し、RLとの組み合わせでは36.69%の精度を達成した。これは従来のRLモデルとの差を縮小するものである。
ウェブナビゲーションおよび言語モデルの能力限界に関する洞察を提供し、今後の研究の方向性を示唆している。
Stats
提案手法のSL時の平均精度は43.58%
提案手法のSL+RL時の平均精度は36.69%
従来のSL手法を上回る精度を達成
RLモデルとの精度差を縮小
Quotes
"大規模言語モデルと強化学習を組み合わせることで、ウェブ上のタスクを効率的に完了するエージェントを訓練することができる。"
"従来のモデルが示す課題、すなわちHTMLコンテンツの理解が表面的で、むしろターゲット要素を記憶する傾向があることを明らかにし、これを改善するための手法を提案する。"