핵심 개념
(Chat)GPT performs worse than BERT in detecting short-term semantic changes but slightly lower in long-term changes.
초록
自然言語処理の世界では、BERTや(Chat)GPTなどのTransformerベースの言語モデルが、開かれた研究問題を解決する力を持つレキシカルなスーパーヒーローとして浮上しています。本論文では、時間的な問題である意味の変化に焦点を当て、Word-in-Context(WiC)タスクの二つの時系列拡張であるTempoWiCとHistoWiCの能力を評価します。具体的には、現在最先端の意味変化モデリングに立ちはだかるBERTと比較して、新しい技術であるChatGPT(およびGPT)3.5の潜在能力を調査します。実験結果は、ChatGPTが基礎となるGPTバージョンよりも明らかに性能が低いことを示しています。さらに、結果はChatGPTが長期的な変化を検出する際にBERTよりわずかに性能が低く、短期的な変化を検出する際には大幅に性能が低いことを示しています。
통계
ChatGPTはTempoWiCで0.551〜0.689、HistoWiCで0.552〜0.765の性能範囲を示す。
BERTはTempoWiCで最終層で0.750〜0.743、HistoWiCでは中間層から最終層まで性能が向上し後半層では減少する。
인용구
"Our results indicate that ChatGPT performs significantly worse than the foundational GPT version."
"Furthermore, our results demonstrate that ChatGPT achieves slightly lower performance than BERT in detecting long-term changes but performs significantly worse in detecting short-term changes."