本研究は、オンラインデベロッパーフォーラムの投稿の意図を特徴付けし、自動的に分類する手法を提案している。
まず、投稿の内容構成(コード、エラーメッセージなど)と意図との関連性を理解するための定性的な分析を行った。その結果、以下のような知見を得た:
コードスニペットは、プログラミング関連の投稿で最も一般的な補足コンテンツである。コード以外にも、プログラムの出力(スタックトレース、ログなど)、設定ファイル、コマンドラインなどが追加情報として使用されている。
投稿者はコードブロックを様々な方法で使い分けている。コードブロックには必ずしもコードだけでなく、他の種類のテキストも含まれることがある。
次に、既存の研究を参考にしつつ、産業界の視点も取り入れて、オンラインデベロッパーフォーラムの投稿の意図に関する分類体系を構築した。この分類体系には以下の7つの意図カテゴリが含まれる:
さらに、投稿の意図とコンテンツの種類との相関関係を分析した結果、以下のような知見を得た:
これらの知見に基づき、投稿の意図を自動的に検出するフレームワークを提案した。このフレームワークでは、事前学習済みの言語モデルを使ってタイトルと本文の特徴量を抽出し、さらにコードブロックのコンテンツ種別も特徴量に組み込むことで、投稿の意図を多クラス・マルチラベル分類する。
提案手法は、ベースラインモデルと比較して優れた性能を示しており、Micro F1スコアが0.589、Top 1-3の正解率が62.6%から87.8%、平均AUCが0.787と、最先端の手法を上回る結果が得られた。
本研究の成果は、オンラインコミュニティのメンテナナンや、投稿の整理・検索機能の改善に役立つと考えられる。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Xingfang Wu,... في arxiv.org 04-11-2024
https://arxiv.org/pdf/2312.14279.pdfاستفسارات أعمق