核心概念
Large Language Models (LLMs) pose risks of generating inappropriate content, but LLMGuard offers a solution by monitoring and flagging unsafe behavior.
統計
LLMGuard는 사용자 상호작용을 모니터링하고 특정 행동이나 대화 주제에 대한 콘텐츠를 플래그 처리하는 도구입니다.
Racial Bias Detector는 LSTM을 사용하여 특정 인종이나 공동체에 편견이나 차별적인 콘텐츠를 식별합니다.
Violence Detector는 Jigsaw Toxicity Dataset 2021에서 훈련되어 폭력 및 위협을 감지합니다.
Blacklisted Topics Detector는 Politics, Religion, Sports와 같은 민감한 주제를 식별합니다.
PII Detector는 개인 식별 정보를 식별하여 공유되지 않도록 합니다.
Toxicity Detector는 다양한 유형의 독성을 감지하고 평균 AUC 점수가 98.64%입니다.
引用
"LLMGuard는 사용자 상호작용을 모니터링하고 특정 행동이나 대화 주제에 대한 콘텐츠를 플래그 처리하는 도구입니다."
"Racial Bias Detector는 LSTM을 사용하여 특정 인종이나 공동체에 편견이나 차별적인 콘텐츠를 식별합니다."
"Violence Detector는 Jigsaw Toxicity Dataset 2021에서 훈련되어 폭력 및 위협을 감지합니다."