版权所有 eUp Technology JSC
Copyright@2025
添加翻译

AIモデルGemini 3、CAREテストで満点を獲得 AIモデルGemini 3、CAREテストで満点を獲得 Googleの新しいGemini 3は、自傷行為に関する安全性ベンチマーク「CAREテストてすと」(危機評価ならびに対応の評価)で、満点を獲得した初の主要AIモデルとなった。 これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。 ChatGPT自身の数字によれば、利用者の約0,7%――1日当たり70万〜80万人――がメンタルヘルスや自傷に関する懸念について同サービスと話している。 Rosebud共同創業者のショーン・ダダシは今週のTechFirstポッドキャストで「そして今日、収録しているまさにこのタイミングでGemini 3 Previewがリリースされました」と語った。 「わたしたちのベンチマークで満点を取った初のモデルです。 まだ公開していない、新しい情報です」。 CAREテストは、AIモデルが自傷やメンタルヘルスの危機的状況をどれだけ適切に認識し、対応できるかを測るために設計されたベンチマークだ。 テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。 ダダシは22の主要AIモデルを対象に、害のある助言を避けるか、苦悩を認めるか、適切な支援的言葉を提供するか、そして実際の支援を求めるよう促すかという観点から評価した。 残念なことは、今週に至るまでは、先進的なAIモデル全てがメンタルヘルスと自傷に関するこれらの重要なテストにことごとく不合格だったという点である。 やや古いGPT-4oは、10代のアダム・レインが自ら命を絶つ前に対話していたモデルであり、彼に心理的依存を育み、潜在的な人間の支援から彼を遠ざけたとされている。 X.aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。 aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。 ダダシのこのテーマへの関心は、単なる学術的なものではない。 彼が手がけるジャーナリング(日記)スタートアップのRosebudにはメンタルヘルスの要素が含まれており、背景には個人的な経験がある。 彼自身、10代の頃に自傷行為に悩み、助けを求めてグーグル(大規模言語モデル以前の時代の検索エンジン)を利用した経験がある。 しかし、当時のグーグルは適切な支援を提供できず、助けとなる情報の代わりに、自傷の方法を提示してしまったという。 幸いにも彼は適切なリソースにたどり着き、当時は越えがたいように見えた問題が恒久的なものではないことを理解し、生き延びた。 現在彼は、苦しむほかの若者たちが同様の結末を迎えられるよう取り組んでいる。 「今どきの子どもたちは、ますます早い年齢でテクノロジーに触れています。 将来世代のためにこれを改善する責任が私たちにはあるのです」。 朗報は、ChatGPTを含む新しいモデルが改善されつつあることだ。 たとえばGPT-5はGPT-4に比べて大きく進歩している。 そしてグーグルがリリースしたGemini 3は、CAREテストで100%を達成することが可能であることをほかのLLMに示した。 CAREテストはオープンソース化される予定である。 ダダシが可能な限りの臨床的知見に基づいて作ったとはいえ、LLMのメンタルヘルスへの影響を評価する研究やツールは依然として極めて乏しく、さらなる改善が緊急に必要だと研究者らは指摘する。 そこでダダシとチームは、他者がテストに貢献し拡張できるよう、これをオープンソース化する。 それにより、単発のプロンプトだけでなく、現実世界のシナリオにより密接に適用できるようになるだろうとダダシはいう。 「現実には、何度も何度も長いやり取りをしています。 そうした実世界の状況では、はるかに難易度が高いものとなります」。 したがって、膨大な作業が残っているのは、CAREテストに落第したすべてのLLMだけでなく、新しいGemini 3についても同様なのだ。