本文提出了POEM,一個視覺分析系統,旨在促進大型語言模型多模態推理能力的有效提示工程。
POEM系統包含以下四個主要模塊:
數據處理模塊:處理多模態視頻數據,包括視覺和語言模態,並將其輸入到多模態大型語言模型中。
多模態推理理解模塊:在全局和分組層面總結模型利用不同模態信息進行推理的複雜交互模式和模式。
提示迭代策略推薦模塊:提供多樣化支持,包括平衡相似性和多樣性的自動k-shot示例推薦,以及輔助語言模型生成的實例特定和普遍性原則總結。
POEM界面:支持有效的提示性能檢查、提示優化輔助,以及提示監控和比較。
通過系統性地理解模型如何整合多模態信息進行推理,用戶可以通過適當的提示設計,結合領域專業知識,評估和增強模型在表現不佳領域的知識。兩個案例研究和專家訪談證明了POEM的有效性和效率。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jianben He, ... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2406.03843.pdfDeeper Inquiries