Core Concepts
LLMsは、Redditの r/Ask{Topic}コミュニティで投稿された事実駆動型の質問に対する人間の回答を、高評価の回答に対してはうまくモデル化できるが、低評価の回答に対してはうまくモデル化できない。
Abstract
本研究では、Redditの r/Ask{Topic}コミュニティで投稿された事実駆動型の質問とその回答に着目し、LLMsがこれらの人間の回答をどの程度うまくモデル化できるかを分析した。
具体的には以下の通り:
- 15の r/Ask{Topic}コミュニティから409の事実駆動型の質問と7,534の回答を収集した。
- 事実駆動型の質問とそうでない質問を自然言語処理モデルを用いて分類した。
- 事実駆動型の質問に対する人間の回答に対して、LLMの出力するパープレキシティ(モデル化の良さを示す指標)と人間による評価(回答の評価スコア)を比較した。
- その結果、LLMsは高評価の回答をうまくモデル化できるが、低評価の回答をうまくモデル化できないことが分かった。
- この知見は、LLMsの社会メディアテキスト生成における能力の範囲を示唆するものであり、今後の研究の方向性を示唆している。
Stats
事実駆動型の質問に対する高評価の回答は、LLMsによるモデル化が容易である一方で、低評価の回答はLLMsによるモデル化が困難である。
例えば、r/UK の質問「なぜ我々は世界の他の地域に比べて小さな家に住んでいるのか?」に対して、高評価の回答「家の大きさは土地の価格と利用可能性に依存する」のパープレキシティは低いが、低評価の回答「家の大きさは個人の好みによる」のパープレキシティは高い。
Quotes
「LLMsは、Redditの r/Ask{Topic}コミュニティで投稿された事実駆動型の質問に対する高評価の人間の回答をうまくモデル化できるが、低評価の回答をうまくモデル化できない」
「この知見は、LLMsの社会メディアテキスト生成における能力の範囲を示唆するものであり、今後の研究の方向性を示唆している」