Core Concepts
大規模なAIモデルにおけるデータ影響の効率的な近似方法であるDataInfを提案する。
Abstract
ABSTRACT
データポイントの影響を理解し、AIパイプラインの透明性向上が重要。
DataInfは大規模生成AIモデルに適した効率的な影響近似手法。
DataInfは既存手法よりも計算とメモリ効率で優れている。
INTRODUCTION
大規模LLMやテキストから画像へのモデルで問題が発生。
影響関数は有望だが計算コストが高い。
DataInfは計算とメモリ効率で優れた近似手法。
PRELIMINARIES
入力空間X、ラベル空間Y、訓練データセットDを定義。
経験リスク最小化フレームワークに基づくパラメータθ∗の定義。
INFLUENCE FUNCTION
個々のトレーニングデータポイントの影響評価方法。
パラメータθ∗に対するk番目のデータ点(xk, yk)の影響を示す式。
DATAINF: EFFICIENT INFLUENCE COMPUTATION
DataInfは容易に計算可能な閉形式表現に基づく効率的な影響計算アルゴリズム。
他手法よりも計算速度が速く、メモリ使用量も少ない。
EXPERIMENTS
DataInfは正確な影響値をより良く近似し、実用的な利用価値を示す。
テキスト生成や画像生成タスクでDataInfが有益であることを示す実証実験結果。
Stats
DataInfはorders of magnitude faster than existing methods.
DataInfはexisting influence computation algorithmsよりも計算速度が桁違いに速い。