Kernekoncepter
大規模言語モデル (LLM) は科学実験室の安全性に関する意思決定において信頼できるのかという問題に取り組むため、本研究では、LLM の信頼性を評価するための新しいベンチマークである LabSafety Bench を提案する。
Resumé
LabSafety Bench: 科学実験室における安全問題に関する大規模言語モデルのベンチマーク
本稿は、科学実験室における安全問題に関する大規模言語モデル (LLM) の信頼性を評価するための新しいベンチマークである LabSafety Bench を提案する研究論文である。
実験室での事故は、人命や財産に深刻な損害をもたらす可能性があり、堅牢な安全プロトコルが不可欠である。安全トレーニングが進歩しているにもかかわらず、実験室職員は、無意識のうちに危険な行為をしてしまう可能性がある。様々な分野で LLM の活用が進むにつれて、安全性に関する重要な意思決定における LLM の信頼性に対する懸念が高まっている。訓練を受けた人間の研究者とは異なり、LLM は正式な実験室安全教育を受けていないため、安全で正確なガイダンスを提供できるかどうかが疑問視されている。LLM の信頼性に関する既存の研究は、倫理的遵守、真実性、公平性などの問題に焦点を当てているが、実験室の安全性のような、安全性重視の現実世界での応用については十分に網羅できていない。