핵심 개념
生命科学分野における固有表現抽出モデルを、化学分野のデータに適用するために、ソースドメインの知識を活用しつつ、ターゲットドメインの固有表現と誤って分類されやすいソースドメインの固有表現を分離する手法を提案する。
초록
本研究では、生命科学分野のデータを用いて事前学習したモデルを、化学分野のデータに適用する際の課題に取り組んでいる。
プリトレーニング段階では以下の2つの手法を提案している:
- 事象情報を活用して、ソースドメインの固有表現の特徴空間を構築する。
- マルチ類似度損失関数を用いて、ソースドメインの固有表現をグループ化する。
ファインチューニング段階では、以下の手法を提案している:
- 事前学習モデルによって誤って化学固有表現と判断された固有表現をプセウドラベルとして検出する。
- マルチ類似度損失関数を用いて、ターゲットドメインの固有表現とプセウドラベルの固有表現を分離する特徴空間を構築する。
提案手法は、3つのソースドメインデータと3つのターゲットドメインデータを用いた12のユースケースで評価され、ベースラインと比較して最大5%の絶対値改善を示した。
통계
化学代謝物であるカテコールとハイドロキノンは、時間および濃度依存的にHL60およびHBMP細胞でアポトーシスを誘導したが、フェノール、NCR181、FLA873、およびFLA797、ならびにピロリジン環の酸化によって形成された誘導体は影響を及ぼさなかった。
正常なG1期の進行は、CDK4およびCDK6タンパク質キナーゼの活性によって促進される。これらのキナーゼはp16INK4タンパク質によって阻害される。
p15の発現は、ヒト角化細胞においてTGF-betaの処理によって約30倍誘導される。これは、p15がTGF-beta媒介性の細胞周期停止の効果器として機能する可能性を示唆している。
인용구
"Named entity recognition is a crucial step in IE tasks. Existing models have achieved remarkable performance in the general domain (Lin et al., 2020; Wang et al., 2021b; Zhang et al., 2023; Shen et al., 2023b). However, in the scientific domains, e.g., medical or chemical domains, these models usually struggle due to the extremely large quantity of concepts, the wide presence of multi-token entities, and the ambiguity in detecting entity boundaries."
"Large language models (LLMs) show an impressive performance on various NLP tasks such as question answering or text summarization (OpenAI, 2022). Models such as ChatGPT (OpenAI, 2022) can achieve outstanding results given just a few training examples (Wang et al., 2022). However, Kandpal et al. (2023) recently report that the performance of these models is proportional to the number of relevant documents present in their pretraining corpus. Thus, one can expect that their performance fluctuates across domains."