데이터 하위 집합이 전체 데이터셋을 얼마나 잘 대표하는지 평가하기 위해 지속성 매칭 다이어그램을 제안한다. 이를 통해 하위 집합이 전체 데이터셋의 클러스터를 얼마나 잘 포착하는지 이해할 수 있으며, 하위 집합과 전체 데이터셋 간의 하우스도르프 거리 범위를 추정할 수 있다.
데이터 편향을 정량화하고 완화하기 위한 새로운 균일 편향(Uniform Bias) 측정 방법을 제안한다. 이 방법은 편향의 정도를 직관적으로 해석할 수 있으며, 기존 방법들의 한계를 해결한다.
노이즈가 있는 데이터에서 공통 및 고유 특징을 정확하게 추출하는 방법을 제안한다.
FairEM360은 엔티티 매칭 작업의 공정성을 평가하고, 불공정성의 원인을 분석하며, 공정성과 성능의 균형을 이루는 앙상블 기반 해결책을 제공한다.
결측 데이터 처리 시 결측 메커니즘에 따른 적절한 방법 선택이 중요하며, 특히 Missing At Random (MAR)과 Missing Not At Random (MNAR) 메커니즘에 대한 이해와 대응이 필요하다.
실험 환경 변화에 강인한 데이터 표현을 평가하기 위한 새로운 지표인 CRIC를 제안하였다. CRIC는 데이터 분포 변화를 나타내는 우도비를 활용하여 데이터 표현의 강인성을 측정한다.
대규모 언어 모델은 전문 프로그래머가 아닌 사용자들에게 데이터 중심 작업을 수행할 수 있는 강력한 도구가 될 수 있다. 그러나 이러한 모델의 성능은 입력 데이터의 양과 선택에 따라 크게 달라질 수 있다.
데이터셋 편향이 데이터셋 증류 성능에 상당한 영향을 미치며, 데이터셋 증류 시 데이터셋 편향을 고려해야 함을 보여준다.
사전 데이터 맞춤 네트워크(PFN)의 성능을 향상시키기 위해 데이터를 압축하는 새로운 프롬프트 튜닝 기술인 TuneTables를 제안한다. TuneTables는 대규모 데이터셋에서도 우수한 성능을 보이며, 편향 완화와 데이터 해석 등의 추가적인 기능을 제공한다.
최근 발표된 GPU 가속 구면 조화 및 비그너 변환을 활용하여 구면과 공 상에서 고성능, 자동 미분 가능한 방향성 웨이블릿 변환 알고리즘을 개발하였다. 이를 통해 기존 소프트웨어 대비 최대 300배 및 21,800배의 가속화를 달성하였으며, 64비트 정밀도를 유지하였다. 이는 데이터 주도 분석 기법에 웨이블릿 변환을 통합할 수 있게 하여 천문학, 분자 모델링 등 다양한 분야에 활용될 수 있다.