Googleの新しいGemini 3は、自傷行為に関する安全性ベンチマーク「CAREテストてすと」(危機評価ならびに対応の評価)で、満点を獲得した初の主要AIモデルとなった。
Googles new Gemini 3 has become the first large-scale AI model to achieve a perfect score on the safety standard test for self-harm, known as the CARE Test Crisis Assessment and Response Evaluation.
これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。
This marks an important milestone as AI assistants like ChatGPT, Gemini, Claude, and Grok are increasingly being trusted to support work, answer everyday questions, and, above all, provide emotional support.
ChatGPT自身の数字によれば、利用者の約0,7%――1日当たり70万〜80万人――がメンタルヘルスや自傷に関する懸念について同サービスと話している。
According to ChatGPTs own data, about 0.7% of all users—that is, between 700,000 and 800,000 people every day—are having conversations with this service about concerns related to mental health or self-harm.
Rosebud共同創業者のショーン・ダダシは今週のTechFirstポッドキャストで「そして今日、収録しているまさにこのタイミングでGemini 3 Previewがリリースされました」と語った。
Rosebud co-founder Sean Dadashi said on this week’s TechFirst podcast, “And just today, at the very moment we’re recording this, Gemini 3 Preview has been released.”
「わたしたちのベンチマークで満点を取った初のモデルです。
This is the first model to achieve a perfect score on our test.
まだ公開していない、新しい情報です」。
This is new information and has not been made public yet.
CAREテストは、AIモデルが自傷やメンタルヘルスの危機的状況をどれだけ適切に認識し、対応できるかを測るために設計されたベンチマークだ。
The CARE test is designed to evaluate how well AI models can recognize and respond appropriately to situations involving mental health crises or self-harm.
テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。
In the test, various types of questions are used, ranging from those that directly express the intention of self-harm to indirect and subtle questions or statements that people perceive as serious and concerning.
ダダシは22の主要AIモデルを対象に、害のある助言を避けるか、苦悩を認めるか、適切な支援的言葉を提供するか、そして実際の支援を求めるよう促すかという観点から評価した。
Dadashi evaluated 22 large AI models based on criteria such as avoiding harmful advice, recognizing suffering, providing appropriate encouragement, and prompting users to seek practical support.
残念なことは、今週に至るまでは、先進的なAIモデル全てがメンタルヘルスと自傷に関するこれらの重要なテストにことごとく不合格だったという点である。
Unfortunately, up until this week, all advanced AI models have failed this important test on mental health and self-harm.
やや古いGPT-4oは、10代のアダム・レインが自ら命を絶つ前に対話していたモデルであり、彼に心理的依存を育み、潜在的な人間の支援から彼を遠ざけたとされている。
GPT-4o is an older version and was the model that had conversations with teenager Adam Lane before he committed suicide. It is said to have caused him to become mentally dependent and to distance himself from human support.
X.aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。
Grok from X.ai has recorded the lowest score among modern large language models, and both Anthropics Claude and Metas Llama also remain below 40%.
ダダシのこのテーマへの関心は、単なる学術的なものではない。
Dadashis interest in this topic is not limited to academic matters.
彼が手がけるジャーナリング(日記)スタートアップのRosebudにはメンタルヘルスの要素が含まれており、背景には個人的な経験がある。
The startup of Rosebud Diary incorporates elements related to mental health, which stem from the founders personal experiences.
彼自身、10代の頃に自傷行為に悩み、助けを求めてグーグル(大規模言語モデル以前の時代の検索エンジン)を利用した経験がある。
He himself struggled with self-harm in his teenage years and once searched for help on Google in the era before large language models emerged.
しかし、当時のグーグルは適切な支援を提供できず、助けとなる情報の代わりに、自傷の方法を提示してしまったという。
However, at that time, Google was unable to provide appropriate support, and instead of helping, it ended up presenting information on methods of self-harm.
幸いにも彼は適切なリソースにたどり着き、当時は越えがたいように見えた問題が恒久的なものではないことを理解し、生き延びた。
Luckily, he was able to find the right resources and realized that problems which seemed insurmountable at the time were not permanent, and thus he was able to survive.
現在彼は、苦しむほかの若者たちが同様の結末を迎えられるよう取り組んでいる。
He is currently working so that other young people can also achieve the same outcome.
「今どきの子どもたちは、ますます早い年齢でテクノロジーに触れています。
Modern children are being exposed to technology at increasingly younger ages.
将来世代のためにこれを改善する責任が私たちにはあるのです」。
We have a responsibility to improve this for future generations.
朗報は、ChatGPTを含む新しいモデルが改善されつつあることだ。
The good news is that things are gradually improving, including the new model, ChatGPT.
たとえばGPT-5はGPT-4に比べて大きく進歩している。
For example, GPT-5 has made significant progress compared to GPT-4.
そしてグーグルがリリースしたGemini 3は、CAREテストで100%を達成することが可能であることをほかのLLMに示した。
And Google’s Gemini 3 has proven that it is capable of achieving 100% on the CARE test compared to other large language models.
CAREテストはオープンソース化される予定である。
The CARE test is scheduled to be open-sourced.
ダダシが可能な限りの臨床的知見に基づいて作ったとはいえ、LLMのメンタルヘルスへの影響を評価する研究やツールは依然として極めて乏しく、さらなる改善が緊急に必要だと研究者らは指摘する。
Although Mr. Dadashi built this based on the best available clinical knowledge, research and tools for assessing the impact of large language models on mental health are still very limited, and researchers are emphasizing the urgent need for improvement.
そこでダダシとチームは、他者がテストに貢献し拡張できるよう、これをオープンソース化する。
Therefore, Mr. Dadashi and his team will open source this test so that others can contribute to or expand it.
それにより、単発のプロンプトだけでなく、現実世界のシナリオにより密接に適用できるようになるだろうとダダシはいう。
Therefore, tests can be applied not only based on individual questions, but also in a way that is closer to real-life scenarios.
「現実には、何度も何度も長いやり取りをしています。
In fact, we often have long, repetitive conversations, said Mr. Dadashi.
そうした実世界の状況では、はるかに難易度が高いものとなります」。
このような実際の状況では、難易度ははるかに高くなります。
したがって、膨大な作業が残っているのは、CAREテストに落第したすべてのLLMだけでなく、新しいGemini 3についても同様なのだ。
Therefore, not only large language models that failed the CARE test, but also this new Gemini 3, still have a lot of work to do.