LawDNetは、局所的アフィン変形メカニズムを使用して、音声入力に応じた複雑なリップ動作をモデル化することで、リップ合成の生動性と時間的一貫性を向上させる。
本手法は、音声入力を利用して画像の生成と編集を行うことができる新しい手法を提案する。事前学習済みのディフュージョンモデルを拡張し、音声特徴量を画像生成プロセスに組み込むことで、音声に合わせた高品質な画像を生成できる。さらに、この手法は既存の画像編集手法と組み合わせることで、音声に基づいた画像の編集も可能となる。