Core Concepts
RedditとKaggleのデータセットを使用して、MBTI型を正確に分類するための最適な機械学習モデルを特定することが本研究の目的である。説明可能な人工知能(XAI)アプローチを採用し、単純性、透明性、解釈可能性の高いガラスボックスモデルを使用する。
Abstract
本研究の目的は、RedditとKaggleのデータセットを使用して、MBTI型を正確に分類するための最適な機械学習モデルを特定することです。
研究の概要は以下の通りです:
MBTI型の概要を説明し、MBTI型がオンラインでの行動や関心事に反映される可能性について仮説を立てる。
既存の研究を概観し、本研究の独自性を示す。
RedditとKaggleのデータセットを収集・前処理し、分析に使用する。
多ラベル分類手法であるバイナリ関連法を使用し、ガラスボックスモデルであるMultinomial Naive Bayes、k-Nearest Neighbour、Logistic Regressionを実験する。
各モデルの実験結果を比較し、最適なモデルを選定する。Logistic Regressionが最良の結果を示した。
最良のモデルの結果に対して統計的有意性の検定を行う。[N/S]ラベルと[J/P]ラベルの間に有意差が見られた。
Kaggleデータセットでも同様の実験を行い、Redditデータセットとの比較を行う。Logistic Regressionが最良の結果を示したが、全体的にRedditデータセットの結果の方が優れていた。
Stats
MBTI型の[N/S]ラベルと[J/P]ラベルの間には統計的に有意な差がある。
[N/S]ラベルの精度、再現率、F1スコアは[J/P]ラベルよりも高い。