이 연구는 관측 데이터에서 인과 효과를 추정하는 "이중 기계 학습(double machine learning, DML)" 방법을 검토하고 평가했다. 주요 결과는 다음과 같다:
혼란 요인과 변수 개수에 따라 적절한 기계 학습 알고리즘이 달라진다. 선형 회귀와 라쏘 회귀는 비선형 혼란 요인이 있는 경우 편향된 추정치를 산출할 수 있다.
DML의 주요 장점은 비선형 혼란 요인을 알지 못해도 이를 잘 조정할 수 있다는 것이다. 많은 혼란 요인을 동시에 조정하는 것보다는 이 점이 더 중요하다.
다양한 시뮬레이션 결과, XGBoost가 다양한 상황에서 가장 좋은 성능을 보였기 때문에 DML의 기본 방법으로 추천할 수 있다.
DML은 인과 구조와 변수 선택에 대한 연구자의 입력을 자동으로 대체하지 않는다. 관찰되지 않은 혼란 요인이나 잘못된 통제 변수 문제를 해결하지 못한다.
연구자는 DML 적용 시 적절한 기계 학습 알고리즘 선택을 위해 예측 정확도 지표를 활용할 수 있다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen