Core Concepts
提案されたDISTALANER技術は、オープンソースソフトウェアシステム向けの名前付きエンティティ認識(NER)を改善し、専門家の注釈付きデータの費用と専門家の不足に対処します。
Abstract
AI革命により、自動化システムが重要性を増しており、特にオープンソースソフトウェアシステムなどのさまざまなドメインで専門家をサポートするためのツールが必要とされている。
専門用語や言語が異なるため、利用可能なデータの専門家注釈は高価で困難。
本論文では、オープンソースソフトウェアシステム向けに特別に設計された新しいNER技術を提案し、2段階の遠隔監視注釈プロセスを使用してコストと専門家注釈者の不足に対処する方法を示す。
DISTALANERは他のLLMsよりも優れたモデルパフォーマンスを実現し、NERの効果的な活用を示す。
Introduction
AI革命により自動化システムが重要性を増しており、オープンソースソフトウェアシステム向けに特別設計された新しいNER技術が提案されている。
NERはオープンソースソフトウェア開発でますます重要性を持ち、様々なエンティティタイプ(個々の貢献者、プログラミング言語、ソフトウェアツールなど)を理解・分類することで効果的なコミュニケーションやリソース割り当てが可能となる。
Data Extraction
"我々のモデルは既存のLLMsよりも大幅に優れた結果を出しています。"
"我々は巨大なオープンソースドメインコーパスや2004年以降から収集した関連エンティティ情報が含まれる大規模な一意のルックアップ表など複数のデータセットリリースします。"
Stats
我々のモデルは既存のLLMsよりも大幅に優れた結果を出しています。
我々は巨大なオープンソースドメインコーパスや2004年以降から収集した関連エンティティ情報が含まれる大規模な一意のルックアップ表など複数のデータセットリリースします。
Quotes
"我々は巨大なオープンソースドメインコーパスや2004年以降から収集した関連エンティティ情報が含まれる大規模な一意のルックアップ表など複数のデータセットリリースします。"