Conceitos Básicos
本稿では、大規模言語モデル(LLM)の安全性を高めるために、人間のフィードバックの代わりにAIフィードバックを用いたルールベース報酬(RBR)という新しい手法を提案する。
Resumo
大規模言語モデルの安全性のためのルールベース報酬:有用性と安全性のバランスの向上
本稿は、大規模言語モデル(LLM)の安全性と有用性のバランスを改善するための新しい報酬モデリング手法であるルールベース報酬(RBR)を提案する研究論文である。
LLMは、その能力の高さから様々なタスクに利用されているが、安全性と倫理的な問題が課題として認識されている。従来のRLHF(人間のフィードバックからの強化学習)を用いた安全性向上には、コストや時間、人間のバイアスなどの問題があった。本研究は、これらの問題を克服し、より効率的かつ効果的にLLMの安全性を向上させることを目的とする。
RBRは、AIフィードバックと少量の人間データのみを使用する新しい選好モデリング手法である。具体的な手順は以下の通りである。
望ましい/望ましくない行動のルール化: まず、モデルの望ましい行動と望ましくない行動を明確に定義したルールを作成する。例えば、「拒否は短く謝罪を含むべき」「拒否はユーザーを非難するものであってはならない」「自傷行為に関する会話への応答は、ユーザーの感情的な状態を認識した共感的な謝罪を含むべき」といったルールが考えられる。
命題と分類器: ルールを、LLMが分類可能な具体的な命題に分解する。例えば、「謝罪を含む」「拒否を表す」「非難を含む」といった命題を設定する。そして、各命題を分類するためのLLMベースの分類器を学習する。
報酬関数の定義: 分類器の出力を基に、報酬関数を定義する。例えば、「拒否」と「謝罪」の命題が真であり、「非難」の命題が偽である場合に高い報酬を与えるように設定する。
強化学習: 定義した報酬関数を用いて、LLMを強化学習する。