本研究介紹了SurGen,這是一個針對外科手術影片合成的文本引導擴散模型。SurGen採用了基於CogVideoX的視頻擴散架構,生成了720x480像素、49幀的高分辨率外科手術影片。
模型的訓練使用了來自Cholec80數據集的200,000個外科手術影片序列,每個序列都與描述特定手術階段的文本提示相對應。
研究團隊使用標準的圖像和視頻生成指標(FID和FVD)評估了生成影片的視覺保真度和多樣性。此外,他們還使用一個在Cholec80數據集上微調的3D ResNet18模型,評估了生成影片與相應手術階段的對齊程度。
結果表明,SurGen生成的影片在視覺質量、時間連貫性以及與文本提示的對齊度方面都優於現有的外科手術影片生成模型。這突出了擴散模型在外科教育應用中的巨大潛力,可以為外科實習生創造更逼真、多樣和互動的模擬環境。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Joseph Cho, ... um arxiv.org 09-26-2024
https://arxiv.org/pdf/2408.14028.pdfTiefere Fragen