Core Concepts
大規模言語モデルは明示的なオントロジーを持っていないが、生成するテキストには暗黙的なオントロジーカテゴリーが反映されている。本論文では、ChatGPT 3.5を事例として、これらの暗黙的オントロジーコミットメントを体系化し、GPTの上位オントロジーを提示する。
Abstract
本論文では、大規模言語モデル(LLM)であるChatGPTの暗黙的オントロジーコミットメントを分析し、その上位オントロジーを提示している。
まず、LLMにはオントロジーが存在しないという点を指摘する。LLMは訓練データに含まれるオントロジーを直接含んでいるわけではなく、生成するテキストにのみ暗黙的なオントロジーカテゴリーが反映されている。そのため、本論文では「オントロジー」を「ある文章の暗黙的オントロジーコミットメントを体系的に説明する理論」と定義する。
次に、ChatGPTの応答分析から抽出した主要なオントロジーカテゴリーを階層化し、GPTの上位オントロジーを提示する。主要なカテゴリーは、抽象エンティティ、具体的エンティティ(物体、出来事)、特徴、値、プロセス、機能属性などである。また、これらのカテゴリー間の関係(部分-全体、インスタンス-クラス、具現化など)についても分析している。
さらに、この上位オントロジーと既存の上位オントロジー(BFO、DOLCE、UFOなど)との比較を行い、共通点と相違点を議論している。LLMは曖昧性を解消せずに文章を生成するため、オントロジーオーバーロードや矛盾した応答が生じる課題があることを指摘している。
この研究は、LLMの暗黙的オントロジーを体系的に分析し、オントロジー工学への応用を検討する上で重要な知見を提供している。
Stats
大規模言語モデルは明示的なオントロジーを持っていないが、生成するテキストには暗黙的なオントロジーカテゴリーが反映されている。
ChatGPTの上位オントロジーには、抽象エンティティ、具体的エンティティ(物体、出来事)、特徴、値、プロセス、機能属性などのカテゴリーが含まれる。
ChatGPTの上位オントロジーは既存の上位オントロジーと共通点もあるが、オントロジーオーバーロードや矛盾した応答など、LLMならではの課題も存在する。
Quotes
「大規模言語モデル(LLM)は、明示的な形式知識表現を持っていないが、生成するテキストには暗黙的なオントロジーカテゴリーが反映されている。」
「LLMは曖昧性を解消せずに文章を生成するため、オントロジーオーバーロードや矛盾した応答が生じる課題がある。」