核心概念
TextureMeDefect 是一款基於大型語言模型 (LLM) 的創新工具,能夠在行動裝置上為鐵路零件生成逼真的缺陷紋理,可用於模擬缺陷外觀、進行缺陷分析和培訓等。
論文概述
本論文介紹了一款名為 TextureMeDefect 的創新工具,該工具利用大型語言模型 (LLM) 在行動裝置上生成逼真的鐵路零件缺陷紋理。該工具旨在解決傳統缺陷紋理生成方法在準確性、靈活性和實用性方面的局限性,尤其是在行動裝置上。
研究背景
紋理圖像生成在遊戲、藝術和產品設計等領域已有廣泛應用,但在工業應用中,特別是在鐵路零件上生成逼真的缺陷紋理,仍是一個尚未開發的領域。準確模擬缺陷紋理對於理解缺陷影響和預防潛在危險至關重要。
研究方法
TextureMeDefect 採用多模式方法,允許用戶通過手勢、觸摸和鍵盤輸入與系統互動。其核心是一個 AI 推理引擎,該引擎經過專門設計,可處理用戶輸入並生成缺陷紋理。該引擎包括以下步驟:
**合成數據集生成:**利用 GPT-4 生成包含圖像-標題對的合成數據集,用於訓練 LLM。
**基礎 LLM 微調:**在缺陷紋理合成數據集上微調 GPT-3 模型,以增強其對缺陷紋理的理解。
**提示調整:**使用微調的 GPT-3 模型優化用戶提供的提示,確保其準確描述缺陷特徵。
**多模式圖像生成:**使用 SDXL 或 InstructPix2Pix 等多模式圖像生成模型,根據調整後的提示生成缺陷紋理。
**多模式處理:**對生成的紋理進行後處理,例如調整大小、縮放和格式轉換,以便與 3D 模型集成。
實驗結果
通過對一系列行動裝置進行的嚴格評估表明,TextureMeDefect 在紋理生成速度和準確性方面優於現有工具。與 SDXL 和 DALLE-3 等模型相比,TextureMeDefect 在生成逼真紋理方面表現更出色,並且延遲更低。
結論和未來方向
TextureMeDefect 是一種很有前景的工具,可以在行動裝置上生成逼真的缺陷紋理,為鐵路檢測和模擬提供新的可能性。未來的研究方向包括簡化用戶界面,特別是自定義提示部分,以及進一步降低 inpaint 紋理圖像生成的延遲。
統計資料
在 iOS 平台上,TextureMeDefect 在場景 1 中的延遲為 15-20 秒,在場景 2 中為 18-30 秒,在場景 3 中為 40-50 秒。
在 Android 平台上,TextureMeDefect 在場景 1 中的延遲為 18-30 秒,在場景 2 中為 30-35 秒,在場景 3 中為 50-60 秒。
在場景 1 中,微調後的 GPT-3 模型生成的 Token 數約為 50-150 個,而基礎模型生成的 Token 數約為 180 個。
在場景 2 中,微調後的 GPT-3 模型生成的 Token 數約為 100-260 個。
在場景 3 中,微調後的 GPT-3 模型生成的 Token 數約為 50-150 個。
參與軟體可用性評分的志願者總共有 15 人,其中 Android 用戶佔 46.67%,iOS (iPad) 用戶佔 53.33%。
87.10% 的用戶是熟悉使用 AI 工具生成圖像的專家用戶,只有 12.90% 的用戶是非專家用戶,他們從未執行過基於 AI 的圖像生成。