この論文では、大規模言語モデル(LLM)やバリエーショナル・オートエンコーダー(VAE)、ガウス混合モデル(GMM)などの生成型AIモデルが、インターネットから収集した再帰的に生成されたデータで訓練されると、不可逆的な欠陥に陥る可能性について論じている。
具体的には、モデル生成のデータに既存のモデル出力が含まれると、元のデータ分布の裾野が消失する「モデル崩壊」と呼ばれる現象が起こることが示されている。この問題は理論的に説明され、様々なモデルで一般的に起こりうることが明らかにされている。
この問題に対処するためには、ユーザーとシステムの真正な相互作用に関するデータの価値が高まると指摘されている。インターネットからスクレイピングしたデータにはLLM生成のコンテンツが含まれるため、そのようなデータだけでは持続可能なモデル構築は困難になる可能性がある。
To Another Language
from source content
www.nature.com
Key Insights Distilled From
by Ilia Shumail... at www.nature.com 07-24-2024
https://www.nature.com/articles/s41586-024-07566-yDeeper Inquiries