Keskeiset käsitteet
大規模言語モデルは、人間の注釈と同等以上の一貫性を示すが、予測性能は低い。したがって、現在の大規模言語モデルを引用文脈分析の代替として直接使用することは適切ではない。ただし、大規模言語モデルの注釈結果は、複数の人間注釈者の結果を1つにまとめる際の参考情報として活用できる可能性がある。また、十分な人間注釈者を確保することが困難な場合は、大規模言語モデルを1つの注釈者として活用することも考えられる。
Tiivistelmä
本研究は、大規模言語モデル(特にChatGPT)の引用文脈分析への適用可能性を探索することを目的としている。引用文脈分析では、引用文の文脈情報(引用目的、引用感情など)を分類する必要があるが、この作業には多大な人手コストがかかるため、大規模な分析が困難となっている。
実験の結果、ChatGPTの注釈結果は人間の注釈結果と同等以上の一貫性を示したが、予測性能は低いことが明らかになった。つまり、現在の大規模言語モデルを引用文脈分析の代替として直接使用することは適切ではない。
ただし、大規模言語モデルの注釈結果は、複数の人間注釈者の結果を1つにまとめる際の参考情報として活用できる可能性がある。また、十分な人間注釈者を確保することが困難な場合は、大規模言語モデルを1つの注釈者として活用することも考えられる。
本研究の結果は、今後の引用文脈分析の発展に向けて重要な基礎的知見を提供するものである。
Tilastot
引用文脈分析では、引用目的の5つのクラス(背景、比較、批判、証拠、使用)と引用感情の3つのクラス(肯定的、中立的、否定的)を対象とする。
人間注釈者の一致率は、引用目的が71.8%、引用感情が75.7%である。
ChatGPTの注釈結果の一致率は、引用目的が95.6%、引用感情が99.4%と、人間を上回る。
しかし、予測性能は低く、引用目的の正解率は61.3%、引用感情は64.6%にとどまる。
Lainaukset
"引用文脈分析では、引用文の文脈情報(引用目的、引用感情など)を分類する必要があるが、この作業には多大な人手コストがかかるため、大規模な分析が困難となっている。"
"実験の結果、ChatGPTの注釈結果は人間の注釈結果と同等以上の一貫性を示したが、予測性能は低いことが明らかになった。つまり、現在の大規模言語モデルを引用文脈分析の代替として直接使用することは適切ではない。"
"ただし、大規模言語モデルの注釈結果は、複数の人間注釈者の結果を1つにまとめる際の参考情報として活用できる可能性がある。また、十分な人間注釈者を確保することが困難な場合は、大規模言語モデルを1つの注釈者として活用することも考えられる。"