本論文では、重複結合可能検索問題(OJSP)とカバレッジ結合可能検索問題(CJSP)という2つの空間データセット結合可能検索問題を定義し、複数ソースの空間データセットに対する効率的な結合可能検索フレームワークを提案する。
本稿では、インデックス作成、カーディナリティ推定、範囲集約推定といったデータベース操作において、学習済みモデルが所望の精度を達成するために必要なモデルサイズの下限を理論的に示し、学習済みモデルの実世界システムへの導入を促進する。
λ-Tuneは、大規模言語モデル(LLM)の力を活用してデータベースシステムのチューニングを自動化し、クエリワークロード、ハードウェア仕様、データベースシステムに関する情報をLLMに提供することで、最適なパフォーマンスを実現する構成を生成します。
映画やOTTプラットフォームにおける俳優の共同作業パターンは、言語、時代、ジャンルによって分類され、国境を越えたつながりを示唆している。
まばらな屋内測位データから、過去の特定時点における特定区画の人口を確率的にモデル化し、さらにそのモデルを用いてリアルタイムに将来の人口を予測する手法を提案する。
SQLのgroup-byとaverageを用いた集約ビューの結果を理解することは、特に大規模なデータセットでは困難な場合があります。CauSumXは、因果関係に基づいた要約された説明を生成することで、ユーザーが結果をより深く理解し、データ分析を効率化することを支援します。
香港の証券先物委員会(SFC)の公開記録を用いたネットワーク分析により、香港の金融エコシステムの構造、専門家の移動、企業のダイナミクスが明らかになり、金融業界の構造と進化についての貴重な洞察を提供する。
EUFCC-CIRは、GLAM(博物館、図書館、文書館、美術館)コレクションの複合画像検索のためのデータセットである。EUFCC-340Kデータセットを基に、自動化されたプロセスとフィルタリングヒューリスティックスを使用して、クエリ画像、テキストモディファイア、関連ターゲット画像の豊富で多様なセットを作成した。
本論文では、周辺分布の再構築を効率的かつ非公開に行うための原理的で実用的な手法を提案する。提案手法は、最近の研究で導入された残差クエリーに基づいており、高次元データに対しても計算量が指数的にならない。さらに、局所的な非負制約を導入することで、再構築された周辺分布の精度を向上させることができる。
動的な環境でのオブジェクト指向プロセスマイニングをサポートするための、柔軟でスケーラブルなデータベースフォーマットの提案