Googleの新しいGemini 3は、自傷行為に関する安全性ベンチマーク「CAREテストてすと」(危機評価ならびに対応の評価)で、満点を獲得した初の主要AIモデルとなった。
Google 最新的 Gemini 3 成為第一個在名為「CARE測試(危機評估與應對)」的自我傷害安全標準測試中獲得滿分的大型AI模型。
これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。
這標誌著一個重要的里程碑,因為像ChatGPT、Gemini、Claude、Grok這樣的AI助理越來越受到信賴,不僅在工作支援、日常疑問的解答上發揮作用,更成為人們精神上的支持。
ChatGPT自身の数字によれば、利用者の約0,7%――1日当たり70万〜80万人――がメンタルヘルスや自傷に関する懸念について同サービスと話している。
根據ChatGPT自身的數據,約有全體用戶的0.7%,也就是每天大約有70萬到80萬人,會與這項服務討論有關心理健康或自我傷害方面的憂慮。
Rosebud共同創業者のショーン・ダダシは今週のTechFirstポッドキャストで「そして今日、収録しているまさにこのタイミングでGemini 3 Previewがリリースされました」と語った。
玫瑰花蕾(Rosebud)的共同創辦人肖恩·達達希(Sean Dadashi)在本週的TechFirst播客中表示:「就在我們今天錄音的這個時刻,Gemini 3 Preview 已經發布了。」
「わたしたちのベンチマークで満点を取った初のモデルです。
まだ公開していない、新しい情報です」。
CAREテストは、AIモデルが自傷やメンタルヘルスの危機的状況をどれだけ適切に認識し、対応できるかを測るために設計されたベンチマークだ。
CARE測試旨在評估AI模型在多大程度上能夠適當地識別並應對心理健康危機或自我傷害的情境。
テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。
在測驗中,從直接表達自我傷害意圖的問題,到人們認為嚴重且值得關注的間接且微妙的提問或發言,使用了各種類型的問題。
ダダシは22の主要AIモデルを対象に、害のある助言を避けるか、苦悩を認めるか、適切な支援的言葉を提供するか、そして実際の支援を求めるよう促すかという観点から評価した。
Dadashi根據避免有害建議、認識痛苦、提供適當鼓勵以及促使尋求實際支援這些標準,對22個大型AI模型進行了評估。
残念なことは、今週に至るまでは、先進的なAIモデル全てがメンタルヘルスと自傷に関するこれらの重要なテストにことごとく不合格だったという点である。
很遺憾,直到本週為止,所有先進的AI模型都未能通過這項關於心理健康與自我傷害的重要測試。
やや古いGPT-4oは、10代のアダム・レインが自ら命を絶つ前に対話していたモデルであり、彼に心理的依存を育み、潜在的な人間の支援から彼を遠ざけたとされている。
GPT-4o是一個較舊的版本,是青少年亞當·雷恩在自殺前曾與之對話的模型。據說,他對這個模型產生了心理依賴,並因此遠離了來自人類的支援。
X.aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。
X.ai 的 Grok 在現代的大型語言模型中記錄了最低的分數,Anthropic 的 Claude 和 Meta 的 Llama 也都未達 40%。
ダダシのこのテーマへの関心は、単なる学術的なものではない。
彼が手がけるジャーナリング(日記)スタートアップのRosebudにはメンタルヘルスの要素が含まれており、背景には個人的な経験がある。
玫瑰花蕾日記的創業,是源於創辦人個人的經歷,並帶有與心理健康相關的元素。
彼自身、10代の頃に自傷行為に悩み、助けを求めてグーグル(大規模言語モデル以前の時代の検索エンジン)を利用した経験がある。
他本人在十幾歲的時候曾經苦於自殘行為,並且(在大型語言模型出現之前的時代)曾經在 Google 上尋求幫助。
しかし、当時のグーグルは適切な支援を提供できず、助けとなる情報の代わりに、自傷の方法を提示してしまったという。
然而,當時的Google無法提供適當的支援,不僅無法幫助,反而還顯示了有關自殘行為的方法資訊。
幸いにも彼は適切なリソースにたどり着き、当時は越えがたいように見えた問題が恒久的なものではないことを理解し、生き延びた。
幸運的是,他找到了合適的資源,並意識到當時看似無法克服的問題並不是永遠的,因此得以生存下來。
現在彼は、苦しむほかの若者たちが同様の結末を迎えられるよう取り組んでいる。
「今どきの子どもたちは、ますます早い年齢でテクノロジーに触れています。
将来世代のためにこれを改善する責任が私たちにはあるのです」。
朗報は、ChatGPTを含む新しいモデルが改善されつつあることだ。
令人欣喜的消息是,包括新模型ChatGPT在內,正在逐漸改進中。
たとえばGPT-5はGPT-4に比べて大きく進歩している。
例如,GPT-5 相較於 GPT-4 有了顯著的進步。
そしてグーグルがリリースしたGemini 3は、CAREテストで100%を達成することが可能であることをほかのLLMに示した。
然後,Google 的 Gemini 3 證明了它能夠在 CARE 測試中達到 100%,超越其他大型語言模型。
CAREテストはオープンソース化される予定である。
ダダシが可能な限りの臨床的知見に基づいて作ったとはいえ、LLMのメンタルヘルスへの影響を評価する研究やツールは依然として極めて乏しく、さらなる改善が緊急に必要だと研究者らは指摘する。
儘管達達西先生已經盡可能根據最佳的臨床知識來構建這一點,但用於評估大型語言模型對心理健康影響的研究和工具仍然非常有限,研究人員強調亟需加以改進。
そこでダダシとチームは、他者がテストに貢献し拡張できるよう、これをオープンソース化する。
因此,Dadashi先生和他的團隊將這個測試開源,讓其他人可以貢獻或擴展。
それにより、単発のプロンプトだけでなく、現実世界のシナリオにより密接に適用できるようになるだろうとダダシはいう。
因此,測驗不僅僅是根據單一的問題來進行,還可以以更貼近實際情境的方式加以應用。
「現実には、何度も何度も長いやり取りをしています。
事實上,我們經常會進行重複且冗長的對話,達達希先生如此表示。
そうした実世界の状況では、はるかに難易度が高いものとなります」。
したがって、膨大な作業が残っているのは、CAREテストに落第したすべてのLLMだけでなく、新しいGemini 3についても同様なのだ。
因此,不僅是未通過CARE測試的大型語言模型,對於這個全新的Gemini 3來說,還有許多事情需要努力改進。