toplogo
Log på
indsigt - Data Science - # German Dataset on Company Outsourcing

CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for NER and RE


Kernekoncepter
Financial entities and service providers' relationships are analyzed through a German dataset for named entity recognition and relation extraction.
Resumé

1. Abstract:

  • Cyber mapping provides insights into financial entity relationships.
  • Dataset designed for named entity recognition and relation extraction.
  • 5,969 annotations for four entity types and 4,102 relation annotations.

2. Introduction:

  • Cyber incidents pose risks to financial stability due to outsourcing processes.
  • Concept of "cyber mapping" links financial network with cyber network.
  • Fund prospectuses provide information on outsourced services in Germany.

3. Corpus Creation:

  • Corpus created from publicly available fund prospectuses in Germany.
  • Sentences extracted using Apache's PDFBox text stripper routine.
  • Annotated by three experts with named entities and relations.

4. Experiments:

  • NER methods include CRF and BERT models.
  • RoBERTa model used for Relation Extraction (RE).
  • Evaluation based on precision, recall, and F1-score.

5. Conclusion:

  • CO-Fun dataset contains 948 sentences with named entity annotations.
  • Promising performance of NER and RE models on the dataset.
edit_icon

Tilpas resumé

edit_icon

Genskriv med AI

edit_icon

Generer citater

translate_icon

Oversæt kilde

visual_icon

Generer mindmap

visit_icon

Besøg kilde

Statistik
The CO-Fun dataset consists of 948 sentences with 5,969 named entity annotations, including 2,340 Outsourced Services, 2,024 Companies, 1,594 Locations, and 11 Software annotations.
Citater

Vigtigste indsigter udtrukket fra

by Neda... kl. arxiv.org 03-25-2024

https://arxiv.org/pdf/2403.15322.pdf
CO-Fun

Dybere Forespørgsler

How can the CO-Fun dataset be utilized beyond NER and RE applications

CO-Fun datasetの利用範囲は、NERやREアプリケーション以外にもさまざまな分野で活用することが可能です。例えば、金融機関や企業の業務プロセスにおける外部委託のトレンドやパターンを分析し、市場動向やビジネス戦略の洞察を得るために使用できます。また、企業間の関係性やサービス提供者とのつながりを理解することで、産業全体のエコシステムマッピングや競合分析に応用することも可能です。

What potential biases or limitations could arise from using an anonymized dataset like CO-Fun

匿名化されたCO-Funデータセットを使用する際に生じる潜在的な偏りや制限事項はいくつか考えられます。まず第一に、企業名がランダムに入れ替えられているため、実際のデータでは見られる特定企業間の関係性や傾向が失われている可能性があります。これによって分析結果が歪んだり誤解釈されたりするリスクがあります。さらに、データセット内で特定地域や特定産業への偏りがあった場合、その影響を受けて結果自体もバイアスを持つ可能性があります。

How might the findings from analyzing company outsourcing in fund prospectuses impact cybersecurity practices

会社からファンド契約書類内で行われている外部委託プラクティスを分析した結果から得られる知見はサイバーセキュリティ実践へ大きな影響を与えうる要素です。具体的には、「Cyber Mapping」手法を通じて金融ネットワークとサイバーネットワーク間の関係性把握能力強化し、「Outsourcing」という重要情報源から新たなサイバーリスク発見・予防手段開発支援します。「Cyber Mapping」技術適用時「Outsourcing」記述文言抽出効率向上及び正確度高め安全保護策立案等多岐展開期待されます。
0
star