本研究では、2017年から2024年までのICLR論文集のデータを収集し、分析を行った。
まず、論文の抽象から単語ベクトル表現を作成し、k-NN分類精度を指標として、従来のTF-IDF表現と最新の言語モデルを比較した。その結果、多くの専用の言語モデルはTF-IDF表現に劣る性能しか示さず、最先端のモデルでも大幅な性能向上は見られなかった。これは、言語モデルによる表現学習の課題を示唆している。
次に、SBERT表現を用いてt-SNEによる2次元埋め込みを行い、機械学習分野の研究動向を可視化した。その結果、2017年から2024年にかけて、生成的敵対的ネットワーク(GAN)やオフラインリインフォースメントラーニングなどの新しいトピックが台頭する一方で、リカレントニューラルネットワーク(RNN)や敵対的サンプルなどの古いトピックが衰退していることが分かった。また、著者の分析から、機械学習分野には「ハリネズミ」と「キツネ」の2つのタイプの研究者が存在することが示唆された。
最後に、論文タイトルに含まれる特定の単語(「理解」、「再考」、疑問符)に着目し、機械学習の中でも特に議論の活発な分野を特定した。
To Another Language
from source content
arxiv.org
Deeper Inquiries