本研究では、産業プロセスモデリングにおけるカテゴリカル変数の処理に大規模言語モデルを活用する手法を提案している。
まず、カテゴリカル変数を表す短い文章記述をDoc2Vec、all-MiniLM-L12-v2、all-mpnet-base-v2の各モデルを用いて埋め込み表現に変換する。これにより、カテゴリカル変数の意味的・文脈的な関係性を数値ベクトルとして捉えることができる。
次に、これらの埋め込み表現を入力特徴量として、XGBOOST回帰モデルを構築する。モデルの性能評価では、従来のone-hot エンコーディングと比較して、埋め込み表現を用いた場合に予測精度の向上が確認された。
さらに、特徴量重要度分析とShapley分析を行い、カテゴリカル変数の埋め込み表現が、プロセスの理解と最適化に有用な洞察を提供することを示した。
本手法は、産業プロセスにおけるカテゴリカル変数の効果的な活用を可能にし、感度分析や不確実性定量化などの高度な分析にも応用できる。今後は、より高度な機械学習手法の導入や数理的フレームワークの検討により、さらなる精度向上と解釈性の向上が期待される。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Elen... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19097.pdfDybere Forespørgsler