FRACTURED-SORRY-Benchは、悪意のあるクエリを一見無害な複数のサブクエリに分解することで、複数回の対話を通じて大規模言語モデル (LLM) の安全対策を回避できることを示しており、より堅牢な防御策の必要性を強調している。
大規模言語モデルは人間と同様に言語的曖昧さを解釈できる一方で、自身の知識に影響されやすく、真偽の判断にバイアスがかかる傾向がある。
大規模言語モデル (LLM) は、他者の知覚を推論する能力は高いものの、その知覚情報から信念を推論する能力、つまり心の理論 (ToM) に不可欠な要素が不足している。
閉鎖的なビジネス環境における検索拡張生成(RAG)アプリケーションの回答品質評価において、GPT-4のような強力なLLMは、人間の評価者と高い整合性を示し、信頼性の高い自動評価ツールとなる可能性がある。
大規模言語モデル(LLM)の性能はプロンプトエンジニアリングに大きく依存しますが、指示の最適化(IO)に焦点を当てるよりも、適切な例示を選択する例示の最適化(EO)が、同等またはそれ以上の性能向上につながる可能性があります。
医療分野などの信頼性が求められる場面において、LLMはインタラクティブな情報収集能力が不足しており、その信頼性を向上させるためには、LLMが積極的に質問を投げかけ、情報収集を行う能力を評価するベンチマークが必要である。
人間が好むテキストを生成するように訓練された調整済み大規模言語モデルは、皮肉なことに人間が書いたテキストよりも人間らしいと評価される傾向があり、この特性を利用して、報酬モデルを用いて効果的に検出できる。
大規模言語モデルの推測的デコーディングにおいて、従来の静的な先読みトークン数ではなく、動的に先読み数を最適化することで、さらなる高速化が可能になる。
大規模言語モデル(LLM)の科学研究における能力を評価するために、包括的で学際的な評価ベンチマークであるSciEvalを提案する。
大規模言語モデル (LLM) のコンテキストウィンドウの長さは増加しているものの、LLMがそのコンテキストをどれだけ効果的に使用できるかは十分に理解されていません。本研究では、最大90万トークンのコンテキストサイズで、主要な17のLLMのコンテキスト理解能力を評価するための、スレッド化タスクを含む一連の検索ベースの実験を実施しました。その結果、多くのモデルは、複数のスレッドを同時に追跡できる「スレッドセーフ」であることがわかりました。しかし、多くのモデルでは、コンテキストウィンドウが大きくなるにつれて精度が低下し、有効なコンテキスト制限はサポートされているコンテキスト長よりも大幅に短いことがわかりました。