Core Concepts
COPAL-IDは、インドネシアの地域文化と言語的ニュアンスを反映した新しい共通感覚推論データセットである。既存の多言語データセットとは異なり、地域特有の文化的要素を含んでおり、インドネシア人の日常的な因果関係推論をより自然に表現している。
Abstract
COPAL-IDは、インドネシアの地域文化と言語的ニュアンスを反映した新しい共通感覚推論データセットである。既存の多言語データセットとは異なり、地域特有の文化的要素を含んでいる。
文化、地域用語、言語の3つのカテゴリーに分類されており、それぞれがインドネシアの地域特有の要素を表している。
標準インドネシア語とジャカルタ方言の2つの形式で提供されており、地域方言の理解も評価できる。
人間の評価では非常に高い正解率を示したが、一般的な多言語モデルは低い成績に留まった。これは、これらのモデルがインドネシアの地域文化的ニュアンスを十分に理解できていないことを示している。
地域特有の知識を必要とするこのデータセットは、多言語モデルの地域文化理解能力を評価するための良いベンチマークとなる。
Stats
「KKを更新する」は、家族構成の変化(結婚など)を示す。
「隣の家が盗まれた」の後に「ただ手を尽くすしかない」は、無力感を表す慣用句。
「UIに合格した」は、インドネシアの有名大学UIへの合格を示す。
「黄色いご飯を食べる」は、祝祭時に食べられるナシクニンを指す。
Quotes
「地域特有の文化的ニュアンスを捉えることは、多言語NLPにおける主要な課題である」
「COPAL-IDは、インドネシアの地域文化を反映した新しい共通感覚推論データセットである」
「COPAL-IDは、一般的な多言語モデルにとって大きな課題となっているが、人間にとっては非常に簡単である」