NetPlayエージェントの評価と挑戦的なローグライクゲームNetHackでのパフォーマンス


topic


大規模言語モデル（LLMs）を使用したNetPlayエージェントは、詳細な指示を実行する能力を示し、柔軟性と創造性に優れていますが、より曖昧なタスクには苦労しています。


coremsg

Playing NetHack with LLMs

### title_rewrite
NetHackをLLMsと一緒にプレイする：ゼロショットエージェントの可能性と限界
### category
ゲームAI
### topic
NetPlayエージェントの評価と挑戦的なローグライクゲームNetHackでのパフォーマンス
### coremsg
大規模言語モデル（LLMs）を使用したNetPlayエージェントは、詳細な指示を実行する能力を示し、柔軟性と創造性に優れていますが、より曖昧なタスクには苦労しています。
### note
大規模言語モデル（LLMs）を使用したNetPlayエージェントは、NetHackの複雑さに対処するために拡張されたアプローチを紹介しています。エージェントは詳細な指示を実行する能力がありますが、ゲーム全体でのパフォーマンスを評価し、さまざまな孤立したシナリオでの振る舞いを分析しました。自律的にプレイする能力や創造性がありますが、より曖昧なタスクには苦労しており、「ゲームに勝つ」といった目標では成功しづらいことが明らかになっています。
### data_sheet
- NetPlayエージェントの平均スコア：284.85 ± 222.10
- NetPlayエージェントの平均深度：2.60 ± 1.39
- NetPlayエージェントの平均経験レベル：2.40 ± 1.23
- NetPlayエージェントの平均ゲーム時間：1292.10 ± 942.74

### quotes

"Given enough context information, an obvious extension to our approach would be granting the agent access to the NetHack Wikipedia."  
"Designing the agent to handle all potential edge cases proved challenging, as it is difficult to anticipate every scenario."  
"Our experiments show that, given enough context information, NetPlay can perform a wide range of tasks."

### further_questions

どうすればNetPlayエージェントがより曖昧なタスクに対処できるよう改善できるか？
このアプローチの潜在的利点と制限事項から得られる洞察は何か？
他の複雑なゲーム環境へ適用する際、このアーキテクチャーはどのように変化する可能性があるか？

NetPlayエージェントの評価と挑戦的なローグライクゲームNetHackでのパフォーマンス

nethackをllmsと一緒にプレイする-ゼロショットエージェントの可能性と限界

note


"Given enough context information, an obvious extension to our approach would be granting the agent access to the NetHack Wikipedia."
"Designing the agent to handle all potential edge cases proved challenging, as it is difficult to anticipate every scenario."
"Our experiments show that, given enough context information, NetPlay can perform a wide range of tasks."


quotes



NetPlayエージェントの平均スコア：284.85 ± 222.10
NetPlayエージェントの平均深度：2.60 ± 1.39
NetPlayエージェントの平均経験レベル：2.40 ± 1.23
NetPlayエージェントの平均ゲーム時間：1292.10 ± 942.74


data_sheet


NetHackをLLMsと一緒にプレイする：ゼロショットエージェントの可能性と限界


NetHackをLLMsと一緒にプレイする：ゼロショットエージェントの可能性と限界

تخصيص الملخص

إعادة الكتابة بالذكاء الاصطناعي

إنشاء الاستشهادات

ترجمة المصدر

إنشاء خريطة ذهنية

زيارة المصدر

Playing NetHack with LLMs

احصل على ملخص PDF في ثوانٍ