Core Concepts
StackOverflowの回答における情報ハイライトの使用状況を分析し、深層学習モデルを用いて自動的に情報ハイライトを推奨する手法を提案する。
Abstract
本研究は、StackOverflowの回答における情報ハイライトの使用状況を大規模に分析した最初の研究です。
情報ハイライトの使用状況分析の結果:
全回答の47.6%でハイライトが使用されており、非常に一般的な手法である。
コード関連の内容(63.5%)がもっともよくハイライトされている。
Boldやイタリックも、ソースコード以外の重要な情報(警告、参照、用語など)をハイライトするのに頻繁に使われている。
自動ハイライト推奨モデルの開発:
CNNベースのモデルを各ハイライトタイプ(Bold、Italic、Heading、Code)ごとに構築した。
コードハイライトの推奨精度が最も高く(F1スコア0.71)、他のタイプは精度が低い(F1スコア0.1-0.31)。
多くの失敗ケースは、モデルが頻出ワードを学習しやすいが、低頻度ワードを学習するのが難しいことが原因。
Stats
全回答の47.6%でハイライトが使用されている
コードハイライトは全ハイライトの78.9%を占める
コードハイライトの平均長は1単語、Boldとイタリックは1単語が多い
Quotes
"コードハイライトは主に識別子(63.5%)、キーワード(9.9%)、ステートメント(7.0%)をハイライトするのに使われる"
"Boldとイタリックは、ソースコード以外の重要な情報(警告、参照、用語など)をハイライトするのに頻繁に使われる"