核心概念
大規模言語モデルのテキストからSQLへの変換能力を、ドメインデータベース知識の注入によって強化する。
要約
本研究は、大規模言語モデル(LLM)のテキストからSQLへの変換能力を向上させるための手法を提案している。LLMは、列名や表名の生成、値とカラムの対応付けなどの課題に直面しており、これらの問題は「幻覚」の発生や、ドメイン固有のデータベース知識の不足が原因となっている。
本研究では、以下の3つのアプローチによってこれらの課題に取り組む:
- 列値の活用によるカラム名の意味情報の強化
- カラムの値情報を利用して、カラム名の意味情報を強化する。これにより、カラム名と値の対応付けを改善する。
- 表名の意味情報の強化
- 表の行データから表名の意味情報を強化する。これにより、質問文から適切な表を特定する能力が向上する。
- カラム名と表名の共起頻度の向上
- カラム名と表名の関係性をモデル化し、共起頻度を高めることで、正しいカラム名と表名の生成を促進する。
実験の結果、提案手法によってEXECUTION MATCH(EX)とEXACT MATCH(EM)の両指標が向上し、カラム名の生成誤りや値とカラムの対応付け誤りが減少することが示された。また、提案手法は様々なテキストからSQL変換タスクに適用可能であり、汎用性の高さも確認された。
統計
質問文に含まれる列名が実際のデータベース列名と一致しない例が多数存在する。
質問文の値情報と、生成されたSQLのカラム名が一致しない例が多数存在する。
引用
"LLMsは、多義語の列名や、意味情報が不足した列名に直面する課題がある。"
"列名と表名の共起頻度を高めることで、正しい列名と表名の生成を促進できる。"