核心概念
該研究探討了音樂家在與印度斯坦聲樂輪廓生成模型 GaMaDHaNi 互動時的體驗、挑戰和期望,揭示了將此類模型應用於音樂創作和表演的潛力和限制。
摘要
書目信息
Shikarpur, N., Huang, C.-Z. A. (2024). Exploratory Study Of Human-AI Interaction For Hindustani Music. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在探討訓練有素的音樂家在與 GaMaDHaNi(一種用於印度斯坦聲樂輪廓的分層生成模型)互動時的體驗,特別關注模型的優缺點以及與音樂家期望的一致性。
方法
研究人員招募了三位經驗豐富的印度斯坦音樂家參與使用者研究。研究分三個階段進行:(1) 半結構式訪談,了解參與者與 AI 的關係;(2) 通過三個預先設計的任務與模型互動,包括創意生成、呼叫與回應以及旋律重新詮釋;(3) 結束後的反思。研究過程中記錄了參與者的互動過程,並對訪談記錄進行了主題分析。
主要發現
- 參與者發現 GaMaDHaNi 在生成與印度斯坦音樂的傳統規則(如拉格和音階)相符的旋律方面存在局限性。
- 模型輸出缺乏一致性,尤其是在呼叫與回應任務中,參與者感覺模型生成的旋律與他們的輸入沒有真正聯繫。
- 參與者對模型提出了建議,例如加入拉格和音階限制,以及捕捉音樂情緒和理念的能力,以增強互動性和音樂性。
主要結論
研究結果表明,雖然 GaMaDHaNi 在生成印度斯坦音樂的聲樂輪廓方面顯示出潛力,但在將其應用於實際音樂創作和表演之前,需要解決一些關鍵挑戰。這些挑戰包括在模型輸出中實施傳統音樂規則的約束,以及提高模型對使用者輸入的回應能力,以實現更自然、更協作的互動體驗。
研究意義
這項研究是探索人機互動在印度斯坦音樂創作中的早期嘗試之一。它提供了寶貴的見解,了解音樂家對 AI 音樂生成工具的期望和面臨的挑戰,為未來開發更符合音樂家需求和期望的 AI 音樂系統奠定了基礎。
局限性和未來研究方向
- 本研究的樣本量有限,僅包含三位參與者。
- 未來的研究可以探討將傳統音樂知識和規則整合到模型中的不同方法,例如基於規則的系統或強化學習。
- 此外,還需要對更大、更多樣化的音樂家群體進行更廣泛的使用者研究,以評估改進後的模型的有效性和可用性。
引述
“the music that we perform has a very defined structure to it. And if it (the model) is going to be a companion, it cannot do some basic errors which are not there in the structure”
“... in one case I think it (the model) got 2 notes from the same scale (as the input). Yeah, it sounded much better than anything else.”
“it’s not generally following any raga rules”
“it (the model output) has a vague Lalit (a raga name) sensibility to it”
“there’s a little bit of potluck involved”
“... me giving input, I didn’t see how it’s helping”
“... it was not generally a good continuation, not even in the same scale”
“I was trying to achieve some mood and it gave me a different mood. So it didn’t help because I would have to regenerate something (the input) to preserve the intended mood.”
“because the music that we do, it’s a lot of repetitions. So usually the responses that I know of are repeating the same thing (as in the input).”