HIVE4MAT 是一款基於連結資料的互動式應用程式,用於瀏覽本體論、自動為文字建立索引以及使用從本體論中提取的標準化術語生成中繼資料。HIVE4MAT 由德雷塞爾大學中繼資料研究中心領導。這項計劃也與美國國家科學基金會「駕馭資料革命」的資料驅動動態設計研究所 (NSF/HDR-ID4) 相關聯,該研究所的目標之一是促進材料科學不同面向之間更大的互通性和交流。HIVE4MAT 的目標使用者包括材料科學研究人員、策展人和資料管理員;儘管如此,經常與本體論互動的研究人員也可能會發現此應用程式很有趣。HIVE4MAT 的功能簡化了語義表示和策展活動的本體論使用,因為主要受眾通常不是經驗豐富的本體論開發人員。
HIVE4MAT 應用程式具有三個主要使用者功能:1. 導航、2. 搜尋和 3. 建立索引。以下將更詳細地討論這三個功能。
導航功能允許使用者從頂層概念到任何子概念或後代概念,以階層方式選擇和探索本體論樹。HIVE4MAT 中包含的本體論會從任何基於 RDF 的格式轉換為 SKOS 架構。雖然這種轉換可能會消除一些初始 OWL 功能,但它不會降低使用者在簡單的分類樹結構中有效探索本體論概念的能力。此外,使用單一標準減少了超類別和子類別關係之間的歧義。使用者可以在本體論的頂層概念、節點概念或葉概念處啟動其本體論導航。使用者選擇概念後,他們可以查看該特定概念的完整 SKOS 編碼中繼資料。HIVE4MAT SKOS 包括以下屬性:
如果使用者識別出他們計劃在其中繼資料中使用的概念,HIVE4MAT 允許使用者複製該概念和首選編碼。HIVE4MAT 支援的中繼資料編碼包括:
HIVE4MAT 允許使用者在本體論內或跨多個本體論搜尋概念。搜尋功能允許使用者選擇一個或一組要搜尋的本體論,然後進行搜尋以檢索所選本體論或本體論中的相關術語。搜尋後,HIVE4MAT 會返回按本體論分組的相關術語清單,供使用者瀏覽。HIVE4MAT 搜尋查詢會針對以下概念欄位執行:首選標籤 (SKOS:preflabel)、備用標籤 (SKOS:altlabel) 和註釋 (SKOS:scopenote)。因此,檢索到的概念可能不包含使用者輸入的初始搜尋詞作為首選詞。這有助於使用者為其元資料記錄識別更強大的術語。
與導航功能一樣,顯示相關術語清單後,使用者可以點擊任何術語並查看該概念的關聯中繼資料。使用者還可以一次使用上面列出的編碼複製一個概念的中繼資料。
HIVE4MAT 還具備自動索引功能,用於處理文字並協助使用者選擇標準本體論術語以獲取特定領域的描述性中繼資料。HIVE4MAT 使用自然語言處理 (NLP),然後將關鍵字詞組映射到所選的本體論。使用者可以選擇使用快速自動關鍵字提取 (RAKE) 或另一個關鍵字提取器 (YAKE) 演算法。在索引序列之後,使用者(例如,研究人員、策展人、資料管理員)會看到索引結果,並從一個或多個本體論中選擇所需術語,以用於他們正在建立的中繼資料表示。
圖 1 提供了 HIVE4MAT 工作流程的概述,並提供了一個詳細的場景:使用者首先選擇他們想要考慮用於自動索引序列的本體論。接下來,使用者可以上傳文字檔、MSWord 文件或 HIVE4MAT 可以轉換為文字的 PDF 檔案,然後進行索引。或者,使用者可以輸入網頁或其他可訪問數位資源的 URI,然後 HIVE4MAT 將抓取該頁面的文字內容以進行自動索引。HIVE4MAT 提供了選項供使用者選擇和修改演算法設定和字數長度。索引工作流程的最後一步需要使用者點擊索引按鈕。此步驟會啟動已上傳或使用 URI 識別的文字的自動索引。如果要處理文件集合,HIVE4MAT 還有一個腳本支援批次上傳和索引。
圖 1:HIVE4MAT 範例索引工作流程
HIVE4MAT 需要幾秒鐘的時間才能針對多個本體論建立索引。與一次針對一個本體論對文章建立索引相比,這大大加快了處理速度。我們需要注意的是,較大的本體論可能會將此過程減慢到 7 到 30 秒之間,儘管與一次針對每個本體論對資源建立索引相比,這種時間延遲仍然更快;我們的開發團隊將繼續努力改進這方面。
索引活動後,候選詞彙會顯示並按本體論分組在一起。候選詞彙的相關性由字體大小和順序表示。使用者可以進一步操作結果,因為有四種不同的排序和顯示選項。自動索引結果僅關注 SKOS 首選標籤中的詞彙,而備用標籤和註釋不是序列的一部分。最後,與搜尋和導航功能一樣,使用者可以點擊任何詞彙,並顯示該概念的關聯中繼資料,然後可以使用上面列出的編碼複製該中繼資料。
HIVE4MAT 使用 Python 3 編寫,它遵循通用 HIVE 的框架,本體論以 SQL 資料庫的形式儲存。除了在 Protege 中生成的三個本體論外,目前 HIVE4MAT 中選擇的本體論都是從 Bioportal 和 MatPoral 檢索的。它們在本地電腦上使用團隊的一個 Python 腳本轉換為 SKOS,並一次一個地上傳到 HIVE4MAT 中。一個關鍵目標是自動化此過程。
在過去的幾年中,HIVE4MAT 團隊進行了多次評估,這些評估影響了當前的開發工作。這裡分享了與材料科學研究人員一起進行的兩項關鍵評估工作。
第一次評估是在 2021 年進行的一項研究,將 HIVE4MAT 作為一個基本的知識提取自動索引應用程式與 MatScholar(一個命名實體識別 (NER) 應用程式)進行了比較。從無機材料研究文章中抽取的 60 篇摘要樣本通過 HIVE4MAT 和 MatScholar 進行了處理,HIVE4MAT 當時使用經典的 RAKE(快速自動關鍵字提取)演算法,而 MatScholar 使用命名實體識別 (NER) 以及 RNN-LSTM(遞迴神經網路-長短期記憶)結構。這種比較擴展了在 ACM/IEEE 數位圖書館聯合會議上報告的比較這兩個應用程式的探索性第一階段評估。在 2021 年的研究中,材料科學研究人員評估了結果的相關性,並被要求就這兩個應用程式提供回饋。對於 HIVE4MAT 應用程式,他們指出了選擇相關術語來表示他們旨在發表的科學研究文章或資料集內容的容易程度。如表 1(下一頁)所示,組合相關性和部分相關性效能為 66%。
表 1
無機材料文獻相關性研究結果
HIVE-4-MAT 的評估結果
樣本量(摘要數量)
60
提取的詞彙數量
987
相關詞彙
392
部分相關詞彙
261
不相關詞彙
334
每個摘要提取的平均詞彙數(範圍)
16.45 (5-30)
相關性百分比
66.16%
研究人員發現 HIVE4MAT 很有幫助,因為它提供了對文章中記錄的知識的訪問,以及對術語結構的洞察。另一個值得注意的好處是認識到 HIVE4MAT 支援重複使用現有的本體論和其他語義系統。這允許更大的資料互通性並打破現有的語義孤島。在開發方面,HIVE4MAT 不需要大型資料集和 LLM 訓練。就 HIVE4MAT 的局限性而言,知識提取和索引功能依賴於本體論中的詞彙組成和所使用的演算法,並且結果缺乏 MatScholar 所具備的特異性。
第二次評估測試了 HIVE4MAT 自動索引功能的效能,並重點關注了金屬有機框架 (MOF) 研究。10 篇關於 MOF 研究的文章樣本通過 HIVE4MAT 運行,並針對 10 個材料科學本體論進行了處理。總共返回了 282 個候選詞彙,導致每篇文章平均有 28 個詞彙,每個本體論有 28 個詞彙。這些文章的詞彙標準差為 12 個(最多 42 個,最少 3 個),詞彙表的詞彙標準差為 23 個(最多 67 個,最少 0 個)。五位 MOF 研究人員參與了一項評估,並對 282 個詞彙中的每一個詞彙是否与其相應的文章相關進行了評分。評估人員使用了一個三級評估系統,該系統包含以下指標:相關、部分相關或不相關,結果見表 2(上)和表 3(下一頁)。
被五位專家中的四位或五位認為相關或部分相關的任何候選詞彙都被認為是相關的,而所有其他詞彙都被認為是不相關的,因為它們沒有達到這個門檻。在與一篇文章相對應的 282 個候選詞彙中,有 110 個被認為是相關的,準確率為 39%。這是一個巨大的進步,因為 HIVE4MAT 自動索引功能在 MOF 相關文章上的一些初始測試的相關性結果表現極差。在本次評估中發現的初步改進是 HIVE4MAT 演算法修改的結果。
目前正在努力進一步簡化從公共儲存庫自動下載本體論和向 HIVE4MAT 添加更新的過程。這種增強將加快和簡化 HIVE4MAT 的更新,並確保使用最新版本的本體論進行自動索引,並可供使用者進行搜尋和導航。這種增強是 HIVE4MAT 開發路線圖中的首要任務之一。
HIVE4MAT 的初步測試在為材料科學選擇相關詞彙方面很有希望。雖然有些人可能會對將本體論轉換為 SKOS 提出質疑,但也有一些好處和其他需要考慮的因素。首先,HIVE4MAT 並不致力於成為一個註冊中心,並且原始的 OWL 本體論仍然可用於每個本體論各自的主機,從而保持其複雜性。
其次,HIVE4MAT 專注於人類發現,它將已成為材料科學領域標準的本體論彙集在一起。HIVE4MAT 的好處是允許使用者輕鬆地互動和探索豐富的語義集合,這些語義與為文字資源或可能具有其他關聯媒體的資源的文字組件建立索引相關。事實上,基於推理的功能可以由其他應用程式來探索。
第三,OWL 實現在不同架構之間有所不同,這給映射帶來了重大挑戰。雖然 SKOS 可能會降低關係的特異性,但它允許在第一次傳遞時或在探索本體論以進行簡單索引時,在調查多個本體論時實現更大的互通性。許多本體論使用 RDF 架構註釋作為一個欄位來註釋本體論概念,但 HIVE4MAT 中的其他本體論僅使用 SKOS scopeNote 或通用核心本體論定義。雖然每個本體論可以使用不同的欄位來記錄有關概念的註釋,但在 HIVE4MAT 中將這些架構都轉換為 SKOS 允許架構在一般級別上互通,而無需更改原始本體論的基本層次結構。
一旦關於將本體論自動引入 HIVE4MAT 的研究和實施完成,HIVE4MAT 團隊將把注意力轉移到其他開發路線圖計劃上。首先,將徹底檢查前端,以便更容易維護和進一步開發後端邏輯和前端邏輯。這將使添加新功能變得更容易,並且使用者可以更容易地訪問代碼並在其自己的系統中實施類似的功能。其次,我們將實施一項新功能,允許“本體論到本體論”的搜尋。目標是允許使用者輸入他們在個人、項目、機構或學科級別使用的術語清單,並查看該術語清單是否與現有的本體論或一組本體論最匹配。雖然關於本體論對齊的工作越來越多,但支援簡單“本體論到本體論”搜尋的應用程式似乎很有限。第三,我們的目標是為 HIVE4MAT 系統中的每個本體論提供更多來源中繼資料。每個本體論都有一個關於本體論建立的時間和地點、由誰(個人或團體)建立以及使用地點的上下文。讓使用者更容易看到這些歷史背景可能有助於辨別項目應考慮實施哪些本體論。
總體而言,我們的開發路線圖將有助於構建更強大的 HIVE4MAT 基礎設施。隨著 HIVE4MAT 的發展,我們將與材料科學界以及其他尋求利用多個本體論的界更廣泛地分享我們的發展成果。
翻譯成其他語言
從原文內容
arxiv.org
深入探究