Concetti Chiave
確率的しきい値フィルタリングと誤り処理を用いて、医療記録の自然言語質問から SQL クエリの生成精度を向上させる。
Sintesi
本研究では、医療記録の自然言語質問から SQL クエリを生成する際の信頼性と正確性を向上させるための手法を提案している。
まず、gpt-3.5-turbo モデルを医療記録の質問-SQL ペアのデータセットでファインチューニングし、SQL クエリの生成精度を高めた。次に、生成された SQL クエリの信頼性を判断するために、確率的しきい値フィルタリング(ProbGate)を導入した。ProbGate は、SQL クエリの各トークンの対数確率を分析し、低確率のトークンが多い場合に質問を「回答不可能」と判断する。
さらに、生成された SQL クエリの文法エラーを検出するために、実際のデータベースでの実行結果を確認する手順を加えた。これにより、回答不可能な質問を確実に除外し、正確な SQL クエリのみを出力することができる。
実験の結果、提案手法は従来の手法よりも優れた性能を示し、医療分野での信頼性の高い Text2SQL システムの構築に貢献できることが示された。特に、回答不可能な質問を適切に識別し、ペナルティを最小限に抑えることができた。
Statistiche
医療記録 SQL データセットには、回答可能な質問と回答不可能な質問が混在している。
回答可能な質問に対する生成 SQL の正解率は約91.87%であった。
回答不可能な質問の割合は約19.97%であった。
Citazioni
"確率的しきい値フィルタリング(ProbGate)を導入し、SQL クエリの各トークンの対数確率を分析することで、回答不可能な質問を効果的に識別できる。"
"実際のデータベースでの SQL クエリ実行結果を確認することで、文法エラーを検出し、正確な SQL クエリのみを出力できる。"