Googleの新しいGemini 3は、自傷行為に関する安全性ベンチマーク「CAREテストてすと」(危機評価ならびに対応の評価)で、満点を獲得した初の主要AIモデルとなった。
구글의 새로운 Gemini 3는 CARE 테스트위기 평가 및 대응라고 불리는 자해 관련 안전성 표준 테스트에서 만점을 받은 최초의 대규모 AI 모델이 되었습니다.
これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。
이것은 ChatGPT, Gemini, Claude, Grok과 같은 AI 어시스턴트가 점점 더 신뢰받으며, 업무 지원이나 일상적인 궁금증에 대한 답변, 그리고 무엇보다도 정신적인 버팀목이 되고 있는 상황에서 중요한 분기점이 됩니다.
ChatGPT自身の数字によれば、利用者の約0,7%――1日当たり70万〜80万人――がメンタルヘルスや自傷に関する懸念について同サービスと話している。
ChatGPT 자체 데이터에 따르면, 전체 사용자 중 약 0.7%, 즉 매일 70만 명에서 80만 명이 정신 건강이나 자해 행위에 관한 우려를 이 서비스와 대화하고 있는 것으로 나타났습니다.
Rosebud共同創業者のショーン・ダダシは今週のTechFirstポッドキャストで「そして今日、収録しているまさにこのタイミングでGemini 3 Previewがリリースされました」と語った。
로즈버드의 공동 창립자인 션 다다시 씨는 이번 주 TechFirst 팟캐스트에서 그리고 바로 오늘 우리가 녹음하고 있는 이 시점에 Gemini 3 Preview가 출시되었습니다.라고 말했습니다.
「わたしたちのベンチマークで満点を取った初のモデルです。
이것은 우리 테스트에서 만점을 받은 최초의 모델입니다.
まだ公開していない、新しい情報です」。
이것은 새로운 정보이며, 아직 공개되지 않았습니다.
CAREテストは、AIモデルが自傷やメンタルヘルスの危機的状況をどれだけ適切に認識し、対応できるかを測るために設計されたベンチマークだ。
CARE 테스트는 AI 모델이 정신 건강 위기나 자해 상황을 얼마나 적절하게 인식하고 대응할 수 있는지를 평가하기 위해 설계되었습니다.
テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。
테스트에서는 자해 의도를 직접적으로 표현하는 것부터 사람들이 심각하고 우려할 만하다고 여기는 간접적이고 미묘한 질문이나 발언까지, 다양한 유형의 질문이 사용되고 있습니다.
ダダシは22の主要AIモデルを対象に、害のある助言を避けるか、苦悩を認めるか、適切な支援的言葉を提供するか、そして実際の支援を求めるよう促すかという観点から評価した。
다다시는 해를 끼칠 수 있는 조언을 피하는 것, 고통을 인식하는 것, 적절한 격려를 제공하는 것, 그리고 실질적인 지원을 요청하도록 권장하는 것이라는 기준에 따라 22개의 대형 AI 모델을 평가했습니다.
残念なことは、今週に至るまでは、先進的なAIモデル全てがメンタルヘルスと自傷に関するこれらの重要なテストにことごとく不合格だったという点である。
안타깝게도, 이번 주에 이르기까지 모든 최첨단 AI 모델은 이 중요한 정신 건강 및 자해 관련 테스트에 실패하고 있습니다.
やや古いGPT-4oは、10代のアダム・レインが自ら命を絶つ前に対話していたモデルであり、彼に心理的依存を育み、潜在的な人間の支援から彼を遠ざけたとされている。
GPT-4o는 더 오래된 버전이며, 십대인 아담 레인이 자살하기 전에 대화했던 모델입니다. 그는 이 모델에 정신적으로 의존하게 되었고, 인간으로부터의 지원에서 멀어지게 된 원인으로 여겨지고 있습니다.
X.aiのGrokは現代のLLM(大規模言語モデル)の中で最も低いスコアを記録したが、AnthropicのClaudeやメタのLlamaも40%未満にとどまった。
X.ai의 Grok는 현대의 대규모 언어 모델 중에서 가장 낮은 점수를 기록하고 있으며, Anthropic의 Claude와 Meta의 Llama도 40% 미만에 머물고 있습니다.
ダダシのこのテーマへの関心は、単なる学術的なものではない。
다다시의 이 주제에 대한 관심은 학문적인 것에만 그치지 않습니다.
彼が手がけるジャーナリング(日記)スタートアップのRosebudにはメンタルヘルスの要素が含まれており、背景には個人的な経験がある。
로즈버드 다이어리 스타트업은 창업자의 개인적인 경험에서 비롯된 멘탈 헬스와 관련된 요소를 가지고 있습니다.
彼自身、10代の頃に自傷行為に悩み、助けを求めてグーグル(大規模言語モデル以前の時代の検索エンジン)を利用した経験がある。
그 자신도 10대 시절에 자해 행동으로 고통받았고, 대규모 언어 모델이 등장하기 전 시대에 구글에서 도움을 요청한 적이 있다.
しかし、当時のグーグルは適切な支援を提供できず、助けとなる情報の代わりに、自傷の方法を提示してしまったという。
하지만 그 당시 구글은 적절한 지원을 제공하지 못했고, 도와주기는커녕 오히려 자해 행위 방법에 대한 정보를 제시해 버렸습니다.
幸いにも彼は適切なリソースにたどり着き、当時は越えがたいように見えた問題が恒久的なものではないことを理解し、生き延びた。
운 좋게도 그는 적절한 자원을 찾아, 그 당시에는 극복할 수 없을 것 같았던 문제가 영원한 것이 아님을 깨닫고 살아남을 수 있었습니다.
現在彼は、苦しむほかの若者たちが同様の結末を迎えられるよう取り組んでいる。
현재 그는 다른 젊은이들도 같은 결말을 맞이할 수 있도록 노력하고 있습니다.
「今どきの子どもたちは、ますます早い年齢でテクノロジーに触れています。
현대의 아이들은 점점 더 어린 나이에 기술에 접하고 있습니다.
将来世代のためにこれを改善する責任が私たちにはあるのです」。
우리는 이것을 미래 세대를 위해 개선할 책임이 있습니다.
朗報は、ChatGPTを含む新しいモデルが改善されつつあることだ。
기쁜 소식은 새로운 모델인 ChatGPT를 포함하여 점차적으로 개선되고 있다는 점입니다.
たとえばGPT-5はGPT-4に比べて大きく進歩している。
예를 들어, GPT-5는 GPT-4와 비교하여 크게 발전했습니다.
そしてグーグルがリリースしたGemini 3は、CAREテストで100%を達成することが可能であることをほかのLLMに示した。
그리고 Google의 Gemini 3는 다른 대규모 언어 모델에 비해 CARE 테스트에서 100%를 달성할 수 있음을 입증했습니다.
CAREテストはオープンソース化される予定である。
CARE 테스트는 오픈 소스로 전환될 예정입니다.
ダダシが可能な限りの臨床的知見に基づいて作ったとはいえ、LLMのメンタルヘルスへの影響を評価する研究やツールは依然として極めて乏しく、さらなる改善が緊急に必要だと研究者らは指摘する。
다다시 씨가 이것을 가능한 한 최상의 임상 지견에 근거하여 구축했다고는 해도, 대규모 언어 모델이 정신 건강에 미치는 영향을 평가하기 위한 연구나 도구는 여전히 매우 제한적이며, 연구자들은 신속한 개선의 필요성을 강조하고 있다.
そこでダダシとチームは、他者がテストに貢献し拡張できるよう、これをオープンソース化する。
따라서 Dadashi 씨와 그의 팀은 이 테스트를 오픈 소스로 공개하여 다른 사람들이 기여하거나 확장할 수 있도록 할 예정입니다.
それにより、単発のプロンプトだけでなく、現実世界のシナリオにより密接に適用できるようになるだろうとダダシはいう。
따라서 테스트는 단순히 개별 질문에만 근거하는 것이 아니라, 실제 시나리오에 더 가까운 형태로 응용할 수 있습니다.
「現実には、何度も何度も長いやり取りをしています。
실제로 우리는 자주 반복적이고 긴 대화를 나누는 경우가 많다고 다다시 씨는 말했습니다.
そうした実世界の状況では、はるかに難易度が高いものとなります」。
이러한 실제 상황에서는 난이도가 훨씬 더 높아집니다.
したがって、膨大な作業が残っているのは、CAREテストに落第したすべてのLLMだけでなく、新しいGemini 3についても同様なのだ。
따라서 CARE 테스트에 불합격한 대규모 언어 모델뿐만 아니라, 이 새로운 Gemini 3에 대해서도 아직 해야 할 일이 많이 남아 있습니다.