어휘 비율: 포트폴리오 다각화에 대한 새로운 관점

核心概念

본 논문에서는 전통적인 수치형 지표의 한계를 극복하기 위해 텍스트 데이터를 활용하여 포트폴리오 다각화를 측정하는 새로운 지표인 어휘 비율(LR)을 제시합니다.

摘要

서론 및 연구 동기

포트폴리오 다각화는 현대 금융의 초석으로서, 다양한 금융 상품, 자산 클래스, 산업 및 지역에 투자를 분산하여 위험을 완화하는 것을 목표로 합니다. 다각화의 기본 원리는 개별 자산의 저조한 성과가 전체 포트폴리오에 미치는 영향을 줄여 위험 조정 수익률을 높이는 것입니다. 서로 완벽하게 관련되지 않은 자산에 투자함으로써 포트폴리오 다각화는 위험과 수익 간의 균형을 맞추어 시간이 지남에 따라 더욱 안정적인 성과를 제공합니다.

금융에서 다각화를 측정하는 데 사용되는 주요 지표는 상관관계로, 두 자산이 서로 관련하여 움직이는 정도를 정량화합니다. 자산의 상관관계가 낮거나 음의 상관관계가 있는 경우, 자산은 독립적으로 또는 반대 방향으로 움직이는 경향이 있어 전체 포트폴리오 변동성을 줄임으로써 다각화에 이점을 제공합니다. 상관관계가 낮은 포트폴리오는 일반적으로 일부 자산의 실적이 저조한 반면 다른 자산의 실적이 좋은 경우 큰 손실 위험이 감소하기 때문에 더 다각화됩니다. 이러한 개념을 공식화한 가장 초기의 영향력 있는 연구 중 하나는 마코위츠(1952)가 평균-분산 최적화를 도입한 것입니다. 그의 프레임워크에서 자산 간의 상관관계는 주어진 기대 수익률 수준에 대해 위험을 얼마나 효과적으로 최소화할 수 있는지 결정하기 때문에 매우 중요합니다. 마코위츠는 다양한 수준의 상관관계를 가진 자산을 전략적으로 결합함으로써 투자자가 위험과 수익 간의 최적의 균형을 달성하는 포트폴리오를 구성하여 효율적인 투자 포트폴리오를 만들 수 있음을 입증했습니다.

포트폴리오 다각화에 관한 문헌은 풍부합니다. 그러나 이 분야에는 아직 해야 할 일이 많이 남아 있습니다. DeMiguel et al. (2007)은 기존 다각화 지표 간의 견고성 부족과 실제 샘플 외 데이터에 대한 저조한 성능에 대해 논의했습니다. 이는 양적 금융 시계열 데이터에만 정보 출처로 의존하기 때문일 수 있습니다. 최근 문헌에서 일반적인 위험 측도를 기반으로 한 다각화 지수의 가장 주목할 만한 예 중 하나는 Choueifaty와 Coignard(2008)가 도입한 다각화 비율(DR)입니다. DR 측정은 개별 자산의 가중 평균 변동성과 전체 포트폴리오 변동성의 비율을 측정하여 다각화의 효과를 정량화하는 중요한 지표입니다. Mainik 및 Rüschendorf(2010), Degen et al. (2010) 및 Embrechts et al. (2009)의 연구에서는 위험 기반 DR 형태를 포함한 위험 측정을 사용하여 구성된 다각화 지표를 살펴보았습니다. 이러한 연구는 특히 상관관계가 증가하고 다각화 이점이 감소하는 경향이 있는 극단적인 시장 상황에서도 포트폴리오 위험을 완화하는 데 있어 다각화의 가치를 강조합니다.

위험 측정이나 상관관계를 사용하여 구성된 현재 지표는 금융 시장의 복잡성을 포착하지 못합니다. 뉴스 기사, 소셜 미디어 게시물, 회사 보고서와 같은 금융 자산과 관련된 텍스트 데이터의 가용성이 증가함에 따라 수치 데이터만으로는 명확하지 않은 다각화의 차원을 포착할 수 있는 기회가 생겨났습니다. 엔트로피 기반 측정은 포트폴리오 다각화를 정량화하고 개선하기 위한 유망한 접근 방식으로 부상했습니다. 정보 이론에 뿌리를 둔 이러한 측정은 포트폴리오의 자산에 대한 가중치 분포를 평가하기 위한 프레임워크를 제공합니다. 특히 섀넌 엔트로피는 포트폴리오 선택에 널리 적용되었으며, 엔트로피 값이 높을수록 다각화가 더 크다는 것을 나타냅니다(Kirchner 및 Zunckel, 2011). 우리가 제안하는 지표는 엔트로피 개념에 뿌리를 두고 있으며 앞에서 언급한 바람직한 속성을 상속받을 것입니다.

포트폴리오 모델에 엔트로피를 통합하면 여러 가지 이점이 있는 것으로 나타났습니다. Ormos 및 Zibriczky(2014)를 비롯한 다른 연구자들은 엔트로피 기반 접근 방식이 샤프 비율 및 평균 포트폴리오 수익률과 관련하여 평균-분산 모델과 같은 전통적인 방법보다 성능이 뛰어날 수 있음을 입증했습니다. 또한 엔트로피 최대화는 포트폴리오 이질성을 높이고 자산 배분을 보다 실용적으로 만들었습니다(Bera 및 Park, 2009). 그러나 엔트로피 기반 측정에는 많은 제한 사항이 있습니다. 이러한 측정은 다각화를 측정하는 수학적 함수를 제공하기보다는 가중치의 균형을 맞추는 최적화 전략에 가깝습니다. 다시 말해, 포트폴리오의 다각화를 정량화하지 않습니다. 이러한 단점에도 불구하고 엔트로피 기반 측정은 포트폴리오 이론에서 계속해서 주목을 받고 있습니다. 비선형적 의존성을 포착하고 포트폴리오 위험에 대한 보다 포괄적인 관점을 제공하는 기능은 개선된 다각화 전략을 위한 지속적인 노력에 있어 귀중한 도구입니다. 우리는 제안된 지표에서 이러한 바람직한 속성을 많이 활용할 것입니다.

금융 분야에서 텍스트 분석의 적용은 최근 몇 년 동안 상당한 견인력을 얻었습니다. 자연어 처리(NLP) 기술과 텍스트 데이터를 사용하는 것은 금융의 몇 가지 공통 주제에 초점을 맞추었으며, 우리가 아는 한 우리가 제안하는 지표는 포트폴리오 다각화의 첫 번째 언어 지표입니다. NLP 분야의 연구는 종종 감정 분석과 자산 수익 예측에 중점을 둡니다. 예를 들어, Kumar 및 Ravi(2016)는 뉴스 기사 및 소셜 미디어 게시물에 대한 감정 분석을 위한 자연어 처리를 포함하여 금융 시장 예측에서 기계 학습 애플리케이션을 조사했습니다. 그들의 연구는 텍스트 데이터를 금융 의사 결정 프로세스에 통합할 수 있는 잠재력을 강조했습니다. 보다 최근에 Shulman(2020)은 수익 통화 캡처 자동화, 컨텍스트를 사용한 데이터 강화, 독점적 금융 데이터 세트에서 검색 및 검색 개선과 같은 작업을 위해 금융 분야에서 NLP 기술 채택이 증가하고 있음에 대해 논의했습니다. 어휘 비율(LR) 측정은 NLP 기술을 활용하여 기존 방법으로는 포착할 수 없는 자산 간의 잠재적인 숨겨진 상관관계와 포트폴리오 구성에 대한 고유한 관점을 제공하는 것을 목표로 합니다.

전반적으로 이 논문은 해당 분야에 세 가지 주요 기여를 합니다. 첫째, LR을 소개하고 이론적 속성을 설명합니다. 둘째, 과거 자산 손실에만 정보 출처로 의존하는 것의 단점을 파악하고 다각화 측정을 재고할 수 있는 새로운 프레임워크를 제공합니다. 셋째, 실제 데이터에 대한 다양한 지표의 성능을 종합적으로 비교하고 LR의 이점을 입증합니다.

LR 측정의 독특한 특성을 감안할 때 2장에서는 새로운 측정에 대해 설명하는 것으로 시작합니다. 3장에서는 새로운 측정을 조사하고 다각화를 평가하는 데 사용되는 다른 접근 방식과 비교합니다. 우리는 그들 사이에 상당한 정보 중복이 있음을 보여주고 다양한 지표의 견고성을 조사하고 LR과 비교하여 기존 측정의 한계를 보여줍니다. 또한 S&P 500 주식으로 구성된 포트폴리오에 대한 엄격한 실제 데이터 최적화 테스트를 수행합니다. 4장에서는 가능한 확장에 대한 논의를 제공합니다. 5장은 결론입니다.

어휘 비율

自定义摘要

使用 AI 改写

生成参考文献

翻译原文

翻译成其他语言

生成思维导图

从原文生成

访问来源

arxiv.org

LR은 각 자산을 뉴스 헤드라인이나 주요 재무 용어와 같은 단어로 구성된 문서로 취급하여 포트폴리오 다각화를 재구성합니다. LR은 섀넌의 엔트로피를 사용하여 모든 자산에서 이러한 단어의 풍부함과 균형을 분석함으로써 포트폴리오가 실제로 얼마나 다각화되었는지에 대한 고유한 관점을 제공합니다. 이 접근 방식은 특히 뉴스 이벤트와 같은 외부 요인이 자산에 다르게 영향을 미치는 경우 전통적인 지표가 놓칠 수 있는 방식으로 정보 분포를 포착합니다. LR 지표의 핵심 개념은 뉴스 헤드라인이나 성명서와 같은 자산 관련 텍스트에 자산의 위험 및 잠재적 이점에 대한 귀중한 정보가 포함되어 있다는 것입니다. 이러한 문서에서 단어의 분포는 이러한 문제를 조사하고 다양한 단어 분포를 가진 다양한 자산을 결합하는 데 귀중한 출처가 될 수 있으며, 이는 포트폴리오의 자산이 서로 어떻게 관련되는지에 대한 통찰력을 제공할 수 있습니다. 예를 들어, 다양한 분야의 다양한 단어를 사용하는 것이 유리한 반면, 단일 분야의 단어를 사용하는 것은 다각화 수준이 낮음을 나타냅니다. 특정 정치적 사건에 대한 뉴스는 모든 자산에 동일하게 영향을 미치지 않습니다. 따라서 석유 선적이나 금리와 같은 다양한 뉴스와 관련하여 균형 잡힌 단어 세트를 갖는 것이 매우 중요할 수 있습니다.
LR은 결합된 가중 자산 문서의 포트폴리오 정규화 섀넌 엔트로피입니다. 다음과 같이 계산됩니다.
LR = − 1 / log(m)  Σ_{k=1}^{m} [ ( Σ_{i=1}^{n} w_i c_{i,k} / Σ_{i=1}^{n} Σ_{j=1}^{m} w_i c_{i,j} ) log( Σ_{i=1}^{n} w_i c_{i,k} / Σ_{i=1}^{n} Σ_{j=1}^{m} w_i c_{i,j} ) ],
여기서 m은 정규화를 위해 사용된 모든 자산 문서에서 고려되는 고유 용어의 수를 나타내고, n은 주어진 포트폴리오의 자산 수이고, w_i는 포트폴리오의 i번째 자산에 할당된 가중치를 나타내고, c_{i,k}는 i번째 자산과 관련된 문서에서 k번째 용어의 발생 횟수입니다.
이 공식은 포트폴리오 내에서 자산별 문서 전체에 걸쳐 단어의 분포를 조사하여 포트폴리오 다각화에 대한 직관적인 통찰력을 제공합니다. 핵심 아이디어는 텍스트에서 더 풍부한 어휘와 균형 잡힌 단어 사용이 잘 짜여지고 다양한 문서 모음을 나타내는 것처럼, 자산 전체에 걸쳐 다양하고 균형 잡힌 정보(단어) 분포를 가진 포트폴리오는 더 높은 수준의 다각화를 반영한다는 것입니다. LR은 어휘가 얼마나 다양한지 포착하여 정보 출처 또는 자산 특성의 다양성과 자산 간에 정보가 얼마나 균등하게 분산되어 있는지 나타냅니다. LR이 높을수록 단일 자산이 포트폴리오 구성을 지배하지 않아 보다 다각화되고 균형 잡힌 투자가 이루어짐을 시사합니다. LR이 낮으면 소수의 자산에 집중되어 다각화가 감소할 수 있습니다. 이 측정은 자산별 정보가 전체 포트폴리오 균형에 어떻게 기여하는지 해석하는 새로운 방법을 제공합니다.

LR의 속성은 포트폴리오 다각화 지표로서의 효과를 이해하는 데 필수적입니다. 이러한 특성은 LR이 앞에서 소개한 이론적 프레임워크를 기반으로 다양한 포트폴리오 구성에서 LR이 안정적으로 작동하는 방식을 명확하게 보여줍니다. 이러한 속성은 LR의 견고성을 보장하고 전통적인 지표에 비해 LR이 왜 더 미묘한 다각화 관점을 제공하는지 강조합니다. 이러한 측면을 이해하는 것은 실제 포트폴리오 관리에서 LR의 실질적인 가치를 입증하는 데 매우 중요합니다.
LR 측정은 섀넌 엔트로피의 정규화되고 가중치가 적용된 형태이므로 섀넌 엔트로피와 몇 가지 주요 속성을 공유하므로 포트폴리오 다각화를 평가하는 데 적합합니다. 우리는 섀넌 엔트로피와 관련된 8가지 속성을 고려하며 LR도 공유합니다.

최대성: LR은 모든 고유 용어가 결합된 자산 문서에서 균등하게 표현될 때 최대값에 도달하여 최대 다각화라는 직관적인 개념과 일치합니다(Bera 및 Park, 2008). 즉, 최적의 포트폴리오는 단어가 균형 있게 분포되어 있습니다. 예를 들어, 자산 간의 균형은 금리, 시장 심리, 부문 등과 같은 다양한 뉴스의 영향을 받습니다.
가산성: 독립적인 자산 문서의 경우 결합 엔트로피는 개별 엔트로피의 합이며, 이는 독립적인 자산 클래스의 포트폴리오를 고려할 때 유용할 수 있습니다(Gray, 2011). 이를 통해 LR은 독립적인 하위 포트폴리오를 결합할 때 적절하게 조정할 수 있습니다. 이는 다각화 평가의 일관성을 보장하고 다양한 자산 클래스로 구성된 복잡한 포트폴리오 분석을 단순화합니다.
오목성: LR은 용어 분포의 오목 함수이므로 용어가 보다 균등하게 분포됨에 따라 다각화가 증가합니다(Cover 및 Thomas, 2012). 이 속성은 다양한 단어 모음을 제공하는 자산 문서에 보상합니다.
연속성: LR은 용어 분포의 연속 함수이므로 포트폴리오 가중치가 조정됨에 따라 다각화 측정이 원활하게 변경됩니다(Gray, 2011). 이는 자산 가중치의 작은 변화가 LR 값의 점진적이고 예측 가능한 변화로 이어지므로 안정성을 제공합니다.
비음성: LR은 항상 음수가 아니므로 숫자를 쉽게 해석할 수 있습니다(Cover 및 Thomas, 2012). 0 값은 다각화가 없음을 나타내는 반면 양수 값은 다양한 수준의 다각화를 나타내므로 포트폴리오 간에 간단하게 비교할 수 있습니다.
대칭성: LR은 용어의 순열에서 불변합니다. 즉, 결합된 자산 문서에서 용어의 순서는 다각화 측정에 영향을 미치지 않습니다(Cover 및 Thomas, 2012). 이는 정보가 정렬되는 방식에 관계없이 측정이 일관성을 유지하므로 객관성을 보장합니다. 이 속성은 공정하고 편견 없는 다각화 평가에 매우 중요합니다.
확장성: 빈도가 0인 용어를 추가해도 엔트로피는 변경되지 않으므로 서로 다른 수의 고유 용어를 가진 포트폴리오를 일관되게 비교할 수 있습니다(Rao et al., 2004). 이 속성은 일부 자산이 특정 유형의 정보에 노출되지 않더라도 다각화 측정의 무결성을 유지합니다.
스케일 불변성: 가중치를 상수로 조정해도 LR 지표 값에는 영향을 미치지 않습니다. 이는 포트폴리오 최적화에서 자산의 가중치 합계가 1이 되어야 하는 경우가 많기 때문에 특히 유용합니다. 텍스트의 일부는 의미가 없습니다. 그러나 가중치를 큰 숫자로 조정하면 LR 지표가 변경되지 않고 텍스트 조합을 검사할 수 있습니다(스케일 불변성 속성에 대한 증명은 부록 A에 나와 있음).

이러한 속성은 어휘 비율을 자산 관련 문서의 어휘 내용을 기반으로 한 견고하고 이론적으로 타당한 포트폴리오 다각화 측정값으로 만듭니다. 포트폴리오 최적화를 위한 수학적으로 엄격한 프레임워크를 제공하는 동시에 직관적인 이해와 일치하는 방식으로 다각화 개념을 포착합니다.

从中提取的关键见解

The lexical ratio: A new perspective on portfolio diversification

by Sayy... 在 arxiv.org 11-12-2024

https://arxiv.org/pdf/2411.06080.pdf