Core Concepts
ChatGPTにおける翻訳タスクのためのプロンプトデザインにおける「翻訳ブリーフ」と「翻訳者/著者」ダイナミックスの有効性を探る。
Abstract
この記事は、ChatGPTを使用した翻訳タスクにおけるプロンプトエンジニアリングの効果を検討しています。異なる4つのプロンプトで生成された出力を評価し、通常の翻訳ブリーフ情報を提供することやChatGPTに著者や翻訳者として役割を割り当てることがどれだけ効果的かについて洞察を提供します。自動評価メトリクスと人間による評価結果から、基本的なプロンプトが最も優れたパフォーマンスを示し、一方で特定の情報を含む他の2つのプロンプトはそれほど良い結果ではなかったことが示されました。
Stats
ChatGPT公開以来、LLM(Large Language Models)の開発とChatGPTの普及が進んできた。
研究ではBLEU(Bilingual Evaluation Understudy)やCOMET-22など、自動評価メトリクスが使用された。
人間による評価では、TT5(Translator)が最高ランキングであり、TT3(Translation Brief)が最低ランキングだった。
TT1(公開バージョン)は平均点で最高ランキングだった。
プロンプトデザインに関するさまざまな戦略やコンセプトが検討されている。
Quotes
"translation as an event can no longer be restricted to translating as an act, given that AI and other communicative modalities will increasingly be drawn into and embedded within the workflow." - Lee (2023)
"82% of leaders from various sectors stated that their employees will need new competencies – such as AI delegation via prompts – to prepare for the expansion of AI." - Microsoft (2023)
"Prompting Large Language Model for Machine Translation: A Case Study." - Zhang et al. (2023)