大規模言語モデルは医療分野での活用が期待されているが、実際の臨床現場での性能評価は十分に行われていない。本研究では、臨床文書を用いた新しいベンチマーク「CLUE」を提案し、バイオメディカルおよび一般ドメインの大規模言語モデルの臨床タスクにおける性能を包括的に評価する。