エミラティ人のバイリンガル音声データセット「Mixat」を紹介し、既存の音声認識モデルの性能評価を行った。
IgboAPI データセットは、Igbo 言語の多様な方言を網羅し、Igbo 言語テクノロジーの開発を促進する。
多言語大規模言語モデルの性能を左右する主要な要因は、事前学習データの量、言語の特性(言語系統、文字体系)、および一般的な言語リソースの有無である。
ダウン症患者の発話の特徴を体系的に評価するためのルーブリックを開発し、その初期的な実験結果を示す。
SOV言語の話者は、動詞に隣接する短い前置詞句を配置することで、依存関係長を効率的に最小化する。
英語学習者の不安やストレスを検出し、それに応じて共感的なフィードバックを提供することで、学習者のモチベーションと学習成果を高めることができる。
電子文書は、作成者の言語的・文化的特性を反映しており、これらの特性を保持しながら電子情報システムで適切に処理することが重要である。
大規模言語モデルの多言語能力を向上させるため、言語横断的な教示調整アプローチを提案する。
LLMを使用して、言語と文化の特性を反映した質問回答データを生成することは可能であるが、その質は人間が生成したデータに及ばない。特に、リソースの少ない言語であるスンダ語では、LLMの性能が大幅に低下する。
言語モデルは多様な文化に関する適切な知識と公平な表現を持つ必要がある。本研究では、言語モデルの文化認識を明らかにし、文化的公平性と知識の不均等さを分析する。