データ組織化と管理の戦略を多目的最適化問題として定式化し、効率的かつ効果的な解決策を提供することで、長文脈LLMの性能を大幅に向上させる。
大規模言語モデルの事前学習データの最適な比率を自動的に推定する新しい手法を提案する。
データ・ガバナンスは、オペレーションとサプライチェーンにおける意思決定を支援するための重要な基盤である。
セマンティックユニットとsome-instance、most-instances、every-instance、all-instances リソースの概念を組み合わせることで、従来のOWLベースのソリューションと比較して、ナレッジグラフの表現力と認知的相互運用性を向上させることができる。
機械学習データセットの開発プロセスにデータキュレーションの概念と方法を取り入れることで、より公平性、説明責任、透明性の高いデータ実践を実現できる。
大規模な気候シミュレーションデータを自動化された信頼性の高い方法で効率的に複製することができた。
大規模言語モデル(LLMs)がFAIRデータスペースの採用を支援できる可能性を示す。
GNNトレーニングにおけるデータ管理の重要性と最適なアプローチを提供する。
個人データのプライバシー制約を満たしながら、サービスプロバイダーの利益を最大化するためのグラフ理論に基づくアルゴリズムを提案。
量子コンピューティングにおけるデータ管理の課題と、ハイブリッドアーキテクチャの重要性を強調する。