TinyLLaVA-Med, a compact multimodal large language model, can be efficiently deployed on embedded devices like the NVIDIA Jetson Xavier to enable advanced AI-driven medical diagnostics in resource-constrained environments.
LogoRA는 다중 스케일 합성곱 신경망과 패칭 트랜스포머 신경망을 통해 시계열 데이터에서 지역적 및 전역적 표현을 추출하고, 이를 융합하여 도메인 간 정렬을 달성함으로써 강건한 시계열 분류를 수행한다.
LogoRAは、時系列データから局所的および全体的な特徴を抽出し、ドメイン間で整列させることで、時系列分類の性能を向上させる。
A novel framework that harnesses the expressive power of large language models (LLMs) for personalized outfit recommendation, mitigating their "black box" and static nature through fine-tuning and direct feedback integration.
MoRAG는 텍스트 기반 인간 동작 생성을 위한 다중 융합 검색 보강 프레임워크로, 대규모 언어 모델과 부분별 동작 검색 모델을 통합하여 생성 및 검색 작업의 품질을 향상시킵니다.
提案手法MoRAGは、大規模言語モデルを活用して部位ごとの動作記述を生成し、それに基づいて部位ごとの動作リトリーバを構築することで、テキストから人間の動作を生成する際の性能を向上させる。
Takin은 고품질 자연스러운 음성을 제로샷으로 생성할 수 있는 일련의 기술과 모델들로, 오디오북 제작에 특화되어 있다.
Takin AudioLLM, a series of advanced models including Takin TTS, Takin VC, and Takin Morphing, enables high-quality zero-shot speech generation and customization to support efficient and scalable audiobook production.
이 연구는 특징이 선형 독립적이라는 가정 없이도 선형 시간 차이 학습이 거의 확실하게 수렴함을 보여줍니다. 특징에 대한 어떠한 가정도 하지 않고도 근사 가치 함수가 고유한 점으로 수렴하고 가중치 반복이 집합으로 수렴함을 증명합니다.
COVID-19 진단 예측을 위한 기계 학습 모델은 증상 데이터만으로는 한계가 있으며, 보다 강력한 기준선 모델을 활용하여 모델의 성능과 활용성을 높일 필요가 있다.