Deep neural networks (DNNs) may develop abstract internal representations, termed "symbols," which can be extracted and used to understand, improve, and safeguard DNN decision-making.
본 논문에서는 기존의 특징 중요도 측정 방식을 넘어, 특징별 시너지 정보, 중복 정보, 상호 정보를 활용하여 데이터 해석과 특징 선택을 동시에 수행하는 새로운 패러다임인 PIDF(Partial Information Decomposition of Features)를 제시합니다.
This paper introduces Partial Information Decomposition of Features (PIDF), a novel method that leverages information-theoretic concepts of synergy and redundancy to provide a more comprehensive understanding of feature importance for both data interpretability and feature selection.
This paper introduces VRCP, a novel framework that leverages conformal prediction and neural network verification to construct prediction sets that maintain coverage guarantees for machine learning models, even in the presence of adversarial attacks.
本研究探討大型語言模型 (LLM) 如何透過類似於上下文對齊的自我修正過程來提升自身能力,並證明 Transformer 模型能夠利用自我修正樣本,在上下文情境下學習並生成更優質的回應。
대규모 언어 모델(LLM)은 문맥 내 정렬을 통해 자기 교정 능력을 발휘할 수 있으며, 특히 비평의 정확도가 높을수록 자기 교정의 성능이 향상된다.
Large language models (LLMs) can leverage self-correction to improve their alignment and performance on tasks like mitigating social bias and defending against jailbreak attacks, particularly when equipped with accurate self-criticism mechanisms.
訓練資料中包含受版權保護內容的大型語言模型,在生成文字時,其輸出內容在版權合規性方面存在顯著差異,需要採取特定措施來減輕潛在的侵權風險。
대규모 언어 모델(LLM)은 방대한 데이터 학습 과정에서 저작권이 있는 자료를 무단으로 재생산할 수 있으며, 이는 저작권법 위반 가능성을 내포하고 있습니다. 본 연구는 LLM의 텍스트 생성 능력과 저작권 준수 간의 관계를 분석하고, 다양한 LLM 모델의 저작권 준수 수준을 평가합니다.
大規模言語モデル(LLM)は、著作権で保護されたテキストをどの程度再現するか、また、モデルやデータセットによってその程度がどのように異なるかを体系的に調査した結果、LLMの著作権遵守には大きなばらつきがあり、モデルの規模が大きいほど潜在的な著作権侵害の件数は増加する傾向にあるが、著作権遵守の特異性については、必ずしも規模と相関関係があるわけではないことが明らかになった。