The author presents the creation of a high-quality dataset for robot navigation in challenging unstructured natural environments, addressing the limitations of existing datasets and emphasizing the importance of comprehensive sensor integration and precise time synchronization.
提案されたEasyPortraitデータセットは、顔の解析とポートレートセグメンテーションのタスクに使用できる大規模な画像データセットです。
Knowledge graph question answering datasets need to evolve to include commonsense reasoning and focus on long-tail entities to challenge the limitations of existing methods.
새로운 로봇 내비게이션 데이터셋인 BotanicGarden은 비구조화된 자연 환경에서 로봇 내비게이션 연구를 위한 고품질 데이터를 제공합니다.
컴퓨터 비전을 위한 대규모 얼굴 파싱 및 초상화 분할 데이터셋인 EasyPortrait의 생성
본 논문에서는 스웨덴어, 덴마크어, 노르웨이어, 아이슬란드어 등 스칸디나비아어로 구성된 1조 개 토큰 규모의 대규모 웹 데이터셋인 SWEb를 소개합니다. 이는 기존의 스칸디나비아어 데이터셋보다 상당히 큰 규모이며, 스칸디나비아어 자연어 처리 연구에 크게 기여할 것으로 기대됩니다. SWEb는 Common Crawl에서 수집한 웹 페이지에서 텍스트를 추출하고 정제하는 새로운 파이프라인을 사용하여 구축되었습니다. 특히, 본 논문에서는 규칙 기반 접근 방식보다 복잡성을 크게 줄이는 모델 기반 텍스트 추출기를 제안합니다. 연구팀은 1,380개의 웹 페이지에 대해 수동으로 주석을 달아 모델을 학습시켰으며, 이를 통해 웹 페이지에서 주요 콘텐츠를 효과적으로 추출할 수 있었습니다. 또한, 스웨덴어 언어 모델 평가를 위한 새로운 cloze-style 벤치마크인 HP-MEK를 소개합니다. HP-MEK는 스웨덴 대학 입학 시험에 사용되는 Swedish Scholastic Aptitude Test (Högskoleprovet)의 일부입니다. 연구팀은 HP-MEK를 사용하여 SWEb 데이터로 학습된 모델과 FineWeb 데이터로 학습된 모델을 비교한 결과, SWEb 데이터셋이 FineWeb와 비슷한 성능을 보인다는 것을 확인했습니다. 본 논문에서 제안된 SWEb 데이터셋과 모델 기반 텍스트 추출 파이프라인은 스칸디나비아어 자연어 처리 연구에 중요한 자원이 될 것으로 기대됩니다. 특히, 대규모 데이터셋 구축 및 고품질 텍스트 추출 기술 개발에 기여할 수 있을 것으로 예상됩니다.
This paper proposes recording a new dataset for the Earth Rover Challenge at the ICRA@40 party in Rotterdam, using the Earth Rover Zero robot to capture real-world navigation data in a public setting.
Researchers introduce HeightCeleb, a dataset augmenting VoxCeleb with speaker height information, aiming to facilitate research on height estimation from speech despite potential inaccuracies in the collected data.