Core Concepts
現在の大規模言語モデル(LLMs)のパラダイムが、アメリカのユダヤ人に対して経済的な被害をもたらす可能性があることを明らかにする。
Abstract
この論文では、大規模言語モデル(LLMs)のトレーニングデータセットを分析し、アメリカのユダヤ人がどれだけ過剰に影響を受けているかを評価しています。以下は内容の概要です:
導入
- LLMsは作者の同意なしに多くのコンテンツでトレーニングされている。
- 本研究では、アメリカのユダヤ人への知的財産剥奪と労働代替に焦点を当てている。
データセット処理
- PubMed Central、Books3、ArXiv、GitHub、FreeLawなど5つの主要データセットから抽出した情報。
- 各データセットごとにDJN(Distinctive Jewish Names)と一致するドキュメント・著者ペアの割合を計算。
結果
- 各データセットでU.S. Jewish著者からIP剥奪イベントがどれだけ発生しているか推定。
- アメリカン・ジュエウィッシュ著者から期待されるIP量と比較し、相対的な知識剥奪度数を計算。
Stats
LLMsは2倍から6.5倍程度まで過剰表現されたJewish Americans作成コンテンツを使用してトレーニングされている。
大規模言語モデルは有料労働代替というポテンシャルを持ち、将来的にJewish Americansへ経済的影響をもたらす可能性あり。
Quotes
"LLMs enable an author such as herself to be 'dispensed with—murdered by my replica...who needs the cow when the milk’s free?'" - Margaret Atwood