核心概念
大規模言語モデルの事前学習コーパス品質を向上させるために、データ評価、タグ付け、編集を行うデータエンジニアリング手法DecorateLMとその有効性を示す。
要約
DecorateLM: データエンジニアリング手法を用いた事前学習コーパスの改善
本稿は、大規模言語モデル(LLM)の事前学習コーパスを洗練させるためのデータエンジニアリング手法であるDecorateLMを紹介する研究論文である。
本研究は、LLMの性能向上において、質の高い事前学習コーパスの必要性に着目し、その実現のためにDecorateLMというデータエンジニアリング手法を提案し、その有効性を検証することを目的とする。
DecorateLMは、データ評価、タグ付け、編集という3つの段階から成る。
データ評価
事前定義された8つの評価基準(教育的価値、専門性、事実と雑学、推論レベル、希少性、構造化フォーマット、物語性、主観性)に基づき、テキストに数値スコアを付与する。この評価には、教師モデルとしてGPT-4を用い、ペアワイズ比較とBradley-Terryモデルを用いて正確なスコアを算出している。
タグ付け
テキストの内容を反映した階層的なラベルシステムを用いてテキストを分類する。3段階のタグ付けを行い、データ管理と検索効率の向上を図る。タグ付けシステムは、21の主要カテゴリと、GPT-4を用いて生成された255の第2レベルタグ、793の第3レベルタグから構成される。
編集
テキストをより形式的で明確な言語標準に合致するように修正および標準化する。この編集には、ノイズの除去、表現の明確化、自然言語の流暢さの向上などが含まれる。編集モデルのトレーニングには、GPT-4を用いて1万件のデータサンプルをリフレーズしたデータセットを使用している。