本稿では、複雑ネットワーク分析を用いて、香港証券先物委員会(SFC)が維持するライセンス取得者および登録機関の公開記録を初めて調査した。21年間、日次で更新されるこのデータセットは、香港の金融セクターにおけるライセンス取得の専門家と、その所属企業との間の進化するソーシャルネットワークについてのユニークな視点を提供する。大規模言語モデルを活用することで、企業(例:資産運用会社、銀行)を分類し、従業員の氏名に基づいて、その国籍や性別を推測した。このアプリケーションは、豊富な人口統計学的および組織的コンテキストを追加することでデータセットを強化し、より正確なネットワーク分析を可能にする。予備的な調査結果は、香港の金融状況のダイナミクスについての新たな洞察を提供する、重要な構造的特徴を明らかにする。構造化されたデータセットを公開してさらなる研究を可能にすることで、金融業界における採用戦略、政策立案、リスク管理に情報を提供する可能性のある将来の研究の基礎を築く。
このデータセットは、2003年4月1日に証券先物条例(SFO)が施行されて以来、ライセンスを受けた個人、法人、登録機関を体系的に記録してきた、香港証券先物委員会(SFC)が維持する公開記録に由来する。SFOの枠組みの下では、SFCのガイドラインにより、証券の取引や金融アドバイスの提供など、規制対象となる活動に従事する個人は、ライセンスを取得することが義務付けられている。逆に、管理部門やサポートスタッフなど、規制対象外の役割を担う個人は、一般的にライセンスを取得する必要はない。データセットには、主に高い資格と専門知識を必要とし、重要な責任を負い、高い収入を得て、金融セクターで重要な役割を果たす役割が含まれている。さらに、このデータセットには、2023年6月1日以降、マネーロンダリングおよびテロ資金供与対策条例(AMLO)に基づいてライセンスを取得した、仮想資産サービスプロバイダー(VASP)に関する情報も含まれており、進化する金融技術に対応した香港の規制範囲の拡大を反映している。
香港証券先物委員会(SFC)の公開記録から、体系的なウェブスクレイピングプロセスを通じてデータセットを収集した。この記録には、ライセンスを受けた個人や企業に関する詳細な情報が記載されているが、ダウンロード可能な形式で直接アクセスすることはできず、データの一部にアクセスするには、特定のキーワードでクエリを実行したり、基準でフィルタリングしたりする必要がある。研究に適した包括的なデータセットを構築するために、ライセンシーに関する利用可能なすべてのデータポイントを抽出した。最終的なデータセットは519,860行、12列で構成されており、SFOおよびAMLOの枠組みの下でライセンスを受けた個人および登録機関に関するすべての関連情報を取得している。さらなる研究を促進するために、データセットをオンラインで公開している。
データセットの起源と構造を確立したので、次に探索的データ分析に移り、香港の金融セクターにおける主要なパターンとトレンドを明らかにする。この分析は、後続のネットワーク構築の基礎となる。
データセットの初期理解を得るために、主要な統計を計算し、表2にまとめた。データセットは2003年4月から2024年3月までの20年以上にわたり、4,979社の企業に在籍する121,883人の従業員に発行された、合計519,860件のライセンスが含まれている。中央値である1.5年という比較的短い在職期間は、競争の激しい金融ハブの特徴である、高い離職率を示唆している。2003年4月に活動していた1,336社のうち、現在も活動を継続しているのは597社のみである。4,979社のうち、1,619社が操業を停止しており、その寿命の中央値は4.1年であり、香港の金融業界の不安定な性質を浮き彫りにしている。
ライセンスの種類を分析した結果、SFC登録簿に記載されている専門家は、通常、4つ以下の種類のライセンスを保有していることが明らかになった。注目すべきは、専門家の30%がちょうど1種類のライセンスを保有しており、さらに30%が2種類のライセンスを保有していることである。最も一般的な単一のライセンスの種類は「証券取引」であり、次いで「証券アドバイス」と「資産運用」が続く(図1a参照)。ライセンスの種類の組み合わせを調べると、最も一般的な組み合わせは「証券アドバイス」と「証券取引」であることがわかった。ライセンストリプレットは、「証券取引」、「証券アドバイス」といった取引と市場の専門知識と、資産運用または企業金融(投資銀行業務)の役割との組み合わせをさらに浮き彫りにしている。
2009年の世界金融危機(GFC)と2020年のCOVID-19パンデミックの発生は、経済に大きな混乱をもたらし、それらの年には終了と作成の数がほぼ同数になったことが反映されている(図1b参照)。2012年と2013年に見られた停滞は、ライセンスの発行が終了のペースを上回らなかった時期であり、過熱した不動産市場を冷やすことを目的とした厳しい不動産対策の導入と一致しており、金融セクターの拡大を抑制した可能性がある。2023年には、初めて終了が作成を上回ったが、これは経済の不確実性、市場ダイナミクスの変化、または金融サービスや専門家がシンガポールやUAE(ドバイ、アブダビ)などの他の新興グローバルハブに移住する傾向を示している可能性がある。
表3は、ライセンシーの総数によるSFC登録簿の上位20社をリストアップしたものである。HSBCは、香港の大手金融機関の一つであるにもかかわらず、ライセンシーの総数による上位ランキングには入っていない。これは、SFCの規制の枠組みに従って、それぞれが特定の業務を扱う21の事業体に業務が分散されているためである。これらの事業体を合わせると、ライセンシーは4,383人となり、HSBCは上位企業に位置付けられる。この構造は、モルガン・スタンレーやゴールドマン・サックスなどのグローバル大手企業に共通しており、これらの企業もSFCのライセンス要件を遵守するために、複数の事業体を通じて事業を行っている。
本稿では、大規模言語モデル(LLM)とそのデータセット充実化への応用に関する技術的な詳細については、深く掘り下げない。その代わりに、LLMが世界の知識を幅広く記憶し、複雑なパターンを学習する能力を活用して、データから価値のある特徴を抽出するためにLLMを活用する。これらの機能により、個人と企業の両方の名前を、出身国、性別、事業分類などの属性に効率的にマッピングすることができ、香港の金融業界における人口統計学的および組織的トレンドをより詳細に分析することができる。
LLMを用いて、個人のフルネームと香港の金融業界との関連性に基づいて、その個人の出身国を推定した。この方法を適用することで、データベースに登録されている121,833人全員の出身国を推測した(表4参照)。この推定された出身国は、国籍や経歴の代理として機能し、現地の人口と海外からの移住者を区別することを可能にする。
ライセンスを取得している専門家の性別の分布を見ると、国籍によって大きな違いがあることがわかる。注目すべきは、欧米からの駐在員(欧州、北米)は、女性専門家の割合が最も低く、ライセンスを取得している労働力のわずか10%しかいないことである。これは、アジアの国籍、特に日本(20%)、韓国(25%)、中国、東南アジア諸国では、女性の割合が30%から40%と高くなっているのとは対照的である。これらの違いは、文化的、社会的、または業界特有の要因を反映している可能性があり、さらなる調査が必要である。
SFCの公開記録には、関連会社の活動内容の詳細な説明がない。そこで、最先端のLLMであるclaude-3.5-sonnet [3](クローズドソースモデル)とllama3-70b [5](オープンソースモデル)を用いて、企業をバイサイドとセルサイドに分類することで、この問題に対処した。資産運用会社やヘッジファンドなどのバイサイド企業は投資に重点を置いており、投資銀行やブローカーディーラーなどのセルサイド企業は市場取引を促進している。分析の結果、バイサイド企業は2003年の25%から2024年には60%に増加しており、LLMによる企業分類の一致率は90%であった。
このデータセットは、社会経済ネットワークを構築するための強固な基盤を提供しており、ノードには、個人(香港の金融専門家)と企業(規制対象の金融機関)という2つの主要なセットがある。このデータセットからは、さまざまなネットワーク構築が可能であり、それぞれが異なる分析目的に適している。ネットワーク構造の選択は、導き出すことができる洞察と、分析できるシステムの複雑さを左右するため、非常に重要である。
あるネットワーク構築では、企業を、時間の経過とともに共有してきた従業員に基づいて接続する。具体的には、各時点tについて時間的グラフGt = (Vt, Et)を構築する。ここで、Vtは時点tで活動している企業を表し、Etは同じ個人を雇用したことがある企業間のエッジを表す。
もう一つのネットワーク構築は、雇用履歴を共有している従業員間の関係に焦点を当てている。ここで、Gt = (Vt, Et)は、各頂点v∈Vtが時点tで活動している従業員を表し、各エッジe = (vi, vj)は、従業員viとvjが同じ企業で一緒に働いていたことを示すネットワークである。
本研究では、大規模言語モデル(LLM)による分類を強化した、SFCの公開記録のネットワーク分析を通じて、香港の金融エコシステムの構造を調査した。分析の結果、企業間ネットワークと従業員間ネットワークの両方において、次数分布のheavy-tailed性やクラスタリングの高さなど、重要な構造的特性が明らかになり、複雑で相互に関連した金融状況が示唆された。この構造化されたデータセットの公開は、金融ネットワークのダイナミクスに関する今後の研究にとって貴重なリソースを提供する、重要な貢献である。この研究は、予測精度(例:経済変数、従業員の離職率、または企業固有のリスク)を向上させるためにネットワーク構造を活用した予測モデルの開発など、さらなる研究への道を開くものである。今後の研究では、この分析を拡張して、グローバル企業の活動を追跡し、地域間の従業員の移動を探り(シンガポール通貨庁(MAS)と英国の金融行動監視機構(FCA)の登録簿を活用)、これらの複雑なネットワークが金融の安定性に与える影響を検討することが考えられる。高度なネットワーク分析の基礎を築くことで、本研究は金融エコシステムのより深い理解に貢献し、世界の金融業界における将来の研究、政策立案、リスク管理を形成することができるツールと洞察を提供するものである。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Abdulla AlKe... at arxiv.org 10-11-2024
https://arxiv.org/pdf/2410.07970.pdfDeeper Inquiries