核心概念
ワークフロー開発の過程で、ワークフローの目的に合わせて、前に選択されたサービスの文脈を考慮しながら、次に選択すべきサービスを推薦する。
要約
本研究では、科学ワークフローの開発プロセスを段階的なサービス選択プロセスとして定式化し、次のサービス推薦問題をコンテキスト依存型の次のアイテム予測問題として扱う。
具体的には以下の3つの主要な取り組みを行っている:
ワークフロー履歴からサービス依存関係を抽出してナレッジグラフを構築し、ワークフロー構築パスを生成する。ワークフロー内パス生成戦略と横断パス生成戦略の2つの方法を提案する。
生成したサービス系列をもとに、ワークフローの目的を考慮したLSTMベースの順序モデル(gLSTM)を開発し、アテンションメカニズムを用いて選択済みサービスの重要度を表現する。これにより、現在のワークフロー構築コンテキストを反映した次のサービス予測モデルを学習する。
オンラインでは、現在のワークフロー構築状況から抽出したアンカーパスに基づいて、学習済みの予測モデルを用いて、次に選択すべきサービスの確率を計算し、上位K個を推薦する。
実験の結果、提案手法の有効性が示された。
統計
2018年までに、生物学分野のサービスの10%未満しか科学ワークフローで再利用されていない。
NASA気候モデル診断アナライザ(CMDA)サービスには、10を超える入力パラメータがある。ユーザがそれらの意味を完全に理解しないと、サービスを再利用したくないと感じる。
引用
"データシミングの問題は、上流サービスの出力データ型を下流サービスの入力に変換する必要があるため、研究者がサービスを再利用したがらない主な障害の1つだと考えられている。"
"サービス選択は、直接の上流サービスだけでなく、現在構築中のワークフロー全体のコンテキストにも依存する。"