Khái niệm cốt lõi
提出了一种新的跨模态可编辑语义通信系统Editable-DeepSC,利用基于StyleGAN先验的反转方法对输入图像进行编码,并结合文本指令实现细粒度的图像编辑,在噪声通道下表现优于现有的数据导向通信方法。
Tóm tắt
本文提出了一种新的跨模态可编辑语义通信系统Editable-DeepSC,以解决在许多场景下需要根据用户偏好动态修改传输的语义信息的问题。
Editable-DeepSC主要由跨模态编解码器和语义编辑模块组成。首先,利用基于StyleGAN先验的反转方法将输入图像编码为潜在表示。同时,文本指令也被编码以指导编辑过程。由于图像语义信息已在StyleGAN潜在空间中充分解耦,因此可以通过直接修改潜在编码来实现细粒度编辑,即使在极端信道条件下也能保持良好性能。
实验结果表明,Editable-DeepSC在编辑效果和传输效率方面均优于现有的数据导向通信方法。这是因为数据导向方法需要在发送端和接收端多次编解码,导致信息损失,而Editable-DeepSC则可以直接在潜在空间进行细粒度编辑,从而大幅降低通信开销。
Thống kê
在-6 dB、-3 dB和0 dB噪声水平下,Editable-DeepSC的SSIM性能略低于DeepJSCC(文本无误差)方法,但后者假设文本传输无误,这在噪声信道中很少发生。
在所有测试的SNR情况下,Editable-DeepSC的FID和LPIPS性能都优于所有提到的数据导向方法。
Editable-DeepSC的通道带宽比仅为DeepJSCC方法的12.5%和JPEG-LDPC方法的21.4%,但仍能实现出色的编辑效果,大幅节省了传输带宽。