提案されたDMoERMは、報酬モデルの性能を向上させるために開発されました。外部層MoEは入力を異なるタスクに分割してマルチタスクの干渉を回避し、内部層MoEは異なる能力点でLoRAエキスパートを学習することでデータノイズの影響を軽減します。