Core Concepts
LLMs like GPT-3.5, GPT-4, and Bard struggle with adhering to best practices in Object-Oriented Programming (OOP) assignments.
Abstract
大規模言語モデル(LLMs)は、オブジェクト指向プログラミング(OOP)の課題で最適な実践を守ることに苦労しています。この研究では、GPT-3.5、GPT-4、およびBardの性能が検証されました。GPT-4は最も優れており、GPT-3.5がそれに続き、Bardが最後尾に位置していました。これらのモデルは一部のエラーを含む解決策を提供しましたが、基本的な構文エラーや複雑なオブジェクト指向プログラミングエラーもありました。
Stats
GPT-3.5は18回の対話を必要としました。
Bardは11回の対話を必要としました。
GPT-4は4回の対話で解決策を生成しました。
Quotes
"すべての学生がどこかで苦労し、何か間違いを犯したと言えるでしょう。" - Anonymous