기존 ABCD 방법의 한계를 극복하고 데이터의 정보를 더 효과적으로 활용하기 위해 베이지안 추론 기반 방법을 제안하였다. 이 방법은 다양한 관측 변수와 배경 프로세스를 고려할 수 있으며, 신호 영역과 배경 영역의 구분 없이 전체 데이터를 활용할 수 있다.
데이터 분포 변화가 기계 학습 모델의 공정성에 미치는 영향을 종합적으로 분석하고, 기존 공정성 알고리즘의 한계를 밝힘.
ChatGPT의 데이터 분석 기능은 데이터 탐색, 시각화, 통계 모델링 등 다양한 작업을 수행할 수 있지만, 여전히 한계와 주의사항이 존재한다. 전문가의 감독 없이 이 도구를 사용하는 것은 위험할 수 있으며, 사용자는 모델의 가정과 한계를 이해해야 한다.
데이터 가지치기 기법은 데이터 효율성을 높이지만, 기존 기법들은 분류 모델의 편향성을 악화시킬 수 있다. 본 연구에서는 클래스 별 오류율을 고려한 무작위 가지치기 기법을 제안하여, 평균 성능 저하 없이 분류 모델의 공정성을 크게 향상시킬 수 있음을 보인다.
데이터 스트림에서 관찰값과 라벨의 평균 제곱 오차 또는 오분류율을 최소화하는 최적 분할점을 찾는 알고리즘을 제시한다.
다중 매개변수 지속 호몰로지를 이용하여 디지털 이미지의 기하학적 및 위상적 특징을 효과적으로 탐지할 수 있다.
데이터 메시 아키텍처에 연합 학습 기법을 통합하여 데이터 소유권 분산, 프라이버시 보호, 분산 데이터 분석 전략을 실현하고자 한다.
데이터 증강을 위해 외부 테이블과의 조인을 통해 새로운 특성을 추가할 때, 상호 정보량을 효율적으로 추정하여 관련성 있는 테이블을 선별할 수 있다.