toplogo
Sign In

CogBench: A Benchmark for Evaluating Large Language Models in Cognitive Psychology Experiments


Core Concepts
Large language models are evaluated using behavioral metrics from cognitive psychology experiments in the CogBench benchmark.
Abstract
CogBench introduces a novel approach to evaluate large language models (LLMs) by focusing on behavioral metrics derived from cognitive psychology experiments. The study highlights the importance of model size and reinforcement learning from human feedback in improving LLMs' performance and alignment with human behavior. Open-source models are found to be less risk-prone than proprietary models, and fine-tuning on code does not necessarily enhance LLMs' behavior. Prompt-engineering techniques like chain-of-thought and take-a-step-back prompting have been shown to influence probabilistic reasoning and model-based behaviors. The benchmark includes tasks such as probabilistic reasoning, horizon task, restless bandit task, instrumental learning, two-step task, temporal discounting, and Balloon Analog Risk Task (BART). Results show that larger models generally perform better and are more model-based than smaller models. The study also explores how specific features of LLMs impact their performance and behaviors through hypothesis-driven experiments.
Stats
35+ LLMs: Larger models generally perform better than smaller ones. RLHF improves human-likeness of LLMs. Open-source models exhibit less risk-taking behavior. Fine-tuning on code does not enhance LLMs' behavior significantly.
Quotes
"Open-source models are less risk-prone than proprietary models." "Fine-tuning on code does not necessarily enhance LLMs’ behavior." "Chain-of-thought prompting improves probabilistic reasoning." "Take-a-step-back prompting fosters model-based behaviors."

Key Insights Distilled From

by Julian Coda-... at arxiv.org 02-29-2024

https://arxiv.org/pdf/2402.18225.pdf
CogBench

Deeper Inquiries

質問1

大規模言語モデルの行動について、認知心理学の実験がどのような洞察を提供できるか? 認知心理学の実験は、人間の行動や意思決定に関する幅広い洞察を提供します。これらの実験は、長年にわたって検証されており、一般的な認知構造を捉えることが示されています。大規模言語モデル(LLM)も人間と同様に情報処理や推論を行いますが、その内部メカニズムは不透明です。したがって、LLMの振る舞いを評価し理解する際には、従来から確立された認知心理学の手法や指標を活用することで深い洞察が得られます。

質問2

オープンソースモデルがプロプライエタリモデルよりもリスク回避傾向が低いことの影響は何ですか? オープンソースモデルがプロプライエタリモデルよりもリスク回避傾向が低い結果は予想外であり興味深いものです。この結果から考えられる影響としては、隠れた事前提示など特定技術要素からくるさまざまな要因に影響されており、「安全」な振る舞いへ制約された可能性がある点です。しかし、この結果は特定技術要素等含めた工程化効果評価方法論上限界値以上でもあった状況下では「危険」度合高く取引し易さ増加等多岐面存在しう事象発生原因分析必須性強化及ぼす可能性有。

質問3

大規模言語モデルにおけるプロンプトエンジニアリング技術は異なる行動特性にどう影響するか? チェーン・オブ・ソート(CoT)やテイク・ア・ステップバック(SB)などのプロントエンジニアリング技術では、「段階的思考」と「抽象化」手法導入後最終応答改善目的使用時具体効能採用可否判断重要ポイント。「段階的思考」手法主眼数学推論支援、「抽象化」手法主眼問題把握促進役割担当可能性高。「段階的思考」と「抽象化」それほど相反せず共存利益相乗作用期待出来そうだ。
0