本研究は、StackOverflow投稿の表現学習に関する包括的な分析を行っている。
既存のStackOverflow特化の表現モデル(Post2Vec、BERTOverflow)の性能を評価した結果、これらのモデルでは下流タスクの性能向上が限定的であることが明らかになった。
一般ドメインおよびソフトウェア工学ドメインの事前学習済みモデルを広範に検討した結果、特定のモデル(CodeBERT、RoBERTa)がStackOverflow投稿の表現に適していることが分かった。しかし、どのモデルも全てのタスクで最良の性能を示すわけではなかった。
StackOverflow投稿データを用いて事前学習を行うことで、提案モデルのSOBERTが全てのタスクで一貫して優れた性能を示すことが明らかになった。
つまり、StackOverflow投稿の表現学習においては、ドメイン固有の事前学習が重要であり、既存の一般的な表現モデルでは限界があることが示された。本研究の結果は、StackOverflow投稿の分析に適した表現モデルの開発に役立つ知見を提供している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Junda He,Zho... klo arxiv.org 04-10-2024
https://arxiv.org/pdf/2303.06853.pdfSyvällisempiä Kysymyksiä