Core Concepts
ニュースインタビューにおいて、インタビュアーがゲストの発言の一部をパラフレーズすることを自動的に検出する。
Abstract
本研究では、ニュースインタビューにおける文脈依存的なパラフレーズの定義と注釈付けを行い、そのデータセットを構築した。パラフレーズの定義は、ある状況では意味が等価であるが、他の状況では必ずしも等価ではない2つのテキスト部分とした。
データセットの構築では、まず著者が手動で1,304件のインタビューから4,450のテキストペアを分類した。その結果を基に、パラフレーズの割合が異なる3つのデータセット(BALANCED、RANDOM、PARA)を作成した。次に、15分間の教育訓練を受けた作業者に、これらのデータセットの注釈付けを行わせた。作業者には、テキストペアがパラフレーズかどうかの判断と、パラフレーズ部分のハイライトを求めた。
最終的に、600のテキストペアに5,581の注釈が付与された。注釈の一致度は低いが、ハイライトの一致度は比較的高かった。これは、パラフレーズの判断には曖昧性があるものの、パラフレーズ部分の特定には一定の合意があることを示している。
本データセットを用いて、言語モデルによるパラフレーズの自動検出を試みた。GPT-4が最も良い分類精度を示し、DeBERTaトークン分類器が最も良いハイライト精度を示した。しかし、モデルの出力からハイライトを抽出する際の課題もあり、今後の改善が必要である。
Stats
発話者が「それは私のものです」と言うと、インタビュアーが「それはあなたのものですね」と言い換えている。
ゲストが「私たちは本当にそのアルゴリズムがどのように作られたのかわかりません」と述べると、インタビュアーが「アルゴリズムについて話しているが、アルゴリズムを設計した人間について話すべきではないか」と言い換えている。
Quotes
「ニュースインタビューでは、カウンセリングやカスタマーサポートなどの高コンフリクト対話でよく推奨されるのは、前の話者の発言をパラフレーズすることです」
「パラフレーズ分類は自然言語処理の分野で広く注目されてきましたが、通常はコンテキストから独立したものとして扱われ、対話設定には適用できないモデルやデータセットが一般的です」