Belangrijkste concepten
Callico は、文書認識プロジェクトのためのアノテーション作成を簡素化するウェブベースのオープンソースプラットフォームである。
Samenvatting
Callico は、文書画像の認識に関するプロジェクトのためのアノテーション作成を支援するウェブベースのオープンソースプラットフォームである。主な特徴は以下の通り:
- 文書の画像とテキストを同時に表示・アノテーションできる「デュアルディスプレイ」機能
- 複数のユーザーが協力してアノテーションできる「協調アノテーション」機能
- テキスト分類、手動転記、レイアウト分析、情報抽出など、様々なアノテーションタスクに対応
- オープンソースで提供され、高品質なコードと簡単なDockerベースのデプロイが特徴
- 歴史的文書の転記プロジェクト、囚人名簿の索引作成、人口統計データの転記と構造化など、様々な事例で活用されている
Statistieken
文書画像アノテーションプロジェクトでは、データ量だけでなく、データ品質も重要である。
Callico を使うことで、効率的かつ高品質なアノテーションデータを作成できる。
ベルフォール市の議事録転記プロジェクトでは、616枚の画像に150人のボランティアが参加した。
赤十字国際委員会の第二次世界大戦捕虜名簿プロジェクトでは、500ページの手書き名簿を30人のアノテーターが60時間で完了した。
Socface プロジェクトでは、70人のコントリビューターが33,815行の個人情報と532ページの世帯構造をアノテーションした。
Citaten
"より良いデータがより賢いアルゴリズムに勝る"
"小中規模データセットでは、良質なデータが不可欠"
"アノテーションプロセスの効率化と品質管理は重要"