Tsetlin Machine (TM)は、解釈可能なルールベースの機械学習モデルであるが、その説明ルールは複雑で人間には理解しにくい場合がある。本稿では、TMの節から重要度の低いリテラルを削除するプルーニング手法を提案し、モデルの精度を維持しながら、より簡潔で人間にとって理解しやすい説明ルールを生成する。
バングラ語のソーシャルメディアにおける政治的なヘイトスピーチを、スタイロメトリ特徴量、TF-IDF、Word2Vecを用いたLSTMなどの深層学習モデルで高精度に自動識別できる可能性を示した。
大規模言語モデル(LLM)のツール使用において、専用のファインチューニングと凍結LLMによるメタ推論を組み合わせた二段階フレームワーク「TECTON」は、従来の手法よりも精度が向上する。
多言語言語モデルにおいて、意味的に類似したサブワードは、その埋め込みを共有することで、モデルの性能を大きく損なうことなく、語彙の圧縮やクロスリンガルの転移学習の促進などが可能になる可能性がある。
本稿では、ソーシャルメディア上のベンガル語テキストを対象に、感情分析を用いた筆者の性別特定の可能性について検証し、感情表現の男女差に関する通説の妥当性を検証しています。
大規模言語モデル(LLM)の安全性と価値観の整合性を高めるアラインメント技術は、モデルの出力の多様性、特に人間の概念的多様性を捉える能力を低下させる可能性がある。
大規模言語モデルの短い形式の回答における事実性を評価するために、GPT-4の回答に対して敵対的に収集され、単一の明確な回答を持つ質問で構成されたベンチマーク「SimpleQA」が提案されている。
南アフリカとコンゴ民主共和国の低リソース言語における感情分析と翻訳の精度向上のため、多言語感情語彙集と機械学習モデルを組み合わせたアプローチが有効である。
本稿では、従来の自然言語処理(NLP)研究では十分に考慮されてこなかった、世界の多数派を占める言語におけるバイアスと害悪を評価・軽減するために、ケイパビリティアプローチの視点を提唱している。
大規模言語モデル(LLM)に対する効果的な攻撃手法として、多様なプロンプトを生成し、安全対策を回避するために難読化を用いることが有効である。