核心概念
本稿では、企業幹部の発言の質を測定するために、新たに作成された Earnings Call Transcripts (ECT) の質問応答データセット「SubjECTive-QA」を紹介し、このデータセットを用いて、LLMを含む様々な自然言語処理モデルが、回答の主観的な側面をどの程度捉えられるかを評価しています。
統計
SubjECTive-QA データセットには、2,747組の質問応答ペアと、6つの特徴に対する49,446件のアノテーションが収録されている。
回答の「明確さ」と「関連性」については、約90%の回答が2の評価を受けている。
回答の「具体性」については、約20%の回答が0の評価を受けている。
RoBERTa-base は、SubjECTive-QA データセットにおいて、6つの特徴すべてにおいて平均63.95%の加重 F1 スコアを達成した。
SubjECTive-QA データセットで学習した RoBERTa-base モデルは、ホワイトハウスの記者会見の質問応答ペアにおいて、平均65.97%の加重 F1 スコアを達成した。
引用
"Fact-checking is extensively studied in the context of misinformation and disinformation, addressing objective inaccuracies. However, a softer form of misinformation involves responses that are factually correct but lack certain features such as clarity and relevance."
"These features are carefully selected to encompass the key attributes that reflect the tone of the answers provided during QA sessions across different domain."
"Our findings are that the best-performing Pre-trained Language Model (PLM), RoBERTa-base, has similar weighted F1 scores to Llama-3-70b-Chat on features with lower subjectivity, such as Relevant and Clear, with a mean difference of 2.17% in their weighted F1 scores."