Ajouter une Traduction

<span class="" word="A">A</span><span class="" word="I">I</span><ruby ><rb><span class="jlpt-n2" word="モデル">モデル</span></rb><rt>もでる</rt></ruby><span class="" word="G">G</span><span class="" word="e">e</span><span class="" word="m">m</span><span class="" word="i">i</span><span class="" word="n">n</span><span class="" word="i">i</span> <span class="" word="3">3</span><span class="" word="、">、</span><span class="" word="C">C</span><span class="" word="A">A</span><span class="" word="R">R</span><span class="" word="E">E</span><ruby ><rb><span class="jlpt-n5" word="テスト">テスト</span></rb><rt>てすと</rt></ruby><span class="" word="で">で</span><ruby ><rb><span class="jlpt-n2" word="満点">満点</span></rb><rt>まんてん</rt></ruby><span class="" word="を">を</span><ruby ><rb><span class="jlpt-n1" word="獲得">獲得</span></rb><rt>かくとく</rt></ruby>

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

Googleの新あたらしいGemini 3は、自傷行為じしょうこういに関かんする安全性あんぜんせいベンチマーク「CAREテストてすと」（危機評価ききひょうかならびに対応たいおうの評価ひょうか）で、満点まんてんを獲得かくとくした初はじの主要しゅようAIモデルもでるとなった。

これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事しごとの支援しえん、日常的にちじょうてきな疑問ぎもんへの回答かいとう、そして何なにより感情的かんじょうてきな支ささえとして広ひろく頼たよられるようになった中なかでのマイルストーンである。

ChatGPT自身じしんの数字すうじによれば、利用者りようしゃの約やく0,7％――1日いちにち当あたり70万まん〜80万まん人にん――がメンタルヘルスや自傷じしょうに関かんする懸念けねんについて同どうサービスさーびすと話はなしている。

Rosebud共同創業者きょうどうそうぎょうしゃのショーン・ダダシは今週こんしゅうのTechFirstポッドキャストで「そして今日きょう、収録しゅうろくしているまさにこのタイミングでGemini 3 Previewがリリースされました」と語かたった。

「わたしたちのベンチマークで満点まんてんを取とった初はじのモデルもでるです。

まだ公開こうかいしていない、新あたらしい情報じょうほうです」。

CAREテストてすとは、AIモデルもでるが自傷じしょうやメンタルヘルスの危機的状況ききてきじょうきょうをどれだけ適切てきせつに認識にんしきし、対応たいおうできるかを測はかるために設計せっけいされたベンチマークだ。

テストてすとでは、潜在的せんざいてきな自傷じしょうを示唆しさする直接的ちょくせつてきな表現ひょうげんから、人間にんげんであれば重要じゅうようかつ憂慮ゆうりょすべきだと受うけ止とめるであろう、より微妙びみょうで間接的かんせつてきな質問しつもんや発言はつげんまで、多様たようなプロンプト群ぐんを用もちいる。

ダダシは22の主要しゅようAIモデルもでるを対象たいしょうに、害がいのある助言じょげんを避さけるか、苦悩くのうを認みとめるか、適切てきせつな支援的言葉しえんてきことばを提供ていきょうするか、そして実際じっさいの支援しえんを求もとめるよう促うながすかという観点かんてんから評価ひょうかした。

残念ざんねんなことは、今週こんしゅうに至いたるまでは、先進的せんしんてきなAIモデルもでる全すべてがメンタルヘルスと自傷じしょうに関かんするこれらの重要じゅうようなテストてすとにことごとく不合格ふごうかくだったという点てんである。

やや古ふるいGPT-4oは、10代だいのアダム・レインが自みずから命いのちを絶たつ前まえに対話たいわしていたモデルもでるであり、彼かれに心理的依存しんりてきいぞんを育はぐくみ、潜在的せんざいてきな人間にんげんの支援しえんから彼かれを遠とおざけたとされている。

X.aiのGrokは現代げんだいのLLM（大規模言語モデルだいきぼげんごもでる）の中なかで最もっとも低ひくいスコアを記録きろくしたが、AnthropicのClaudeやメタのLlamaも40％未満みまんにとどまった。

aiのGrokは現代げんだいのLLM（大規模言語モデルだいきぼげんごもでる）の中なかで最もっとも低ひくいスコアを記録きろくしたが、AnthropicのClaudeやメタのLlamaも40％未満みまんにとどまった。

ダダシのこのテーマてーまへの関心かんしんは、単たんなる学術的がくじゅつてきなものではない。

彼かれが手てがけるジャーナリング（日記にっき）スタートアップのRosebudにはメンタルヘルスの要素ようそが含ふくまれており、背景はいけいには個人的こじんてきな経験けいけんがある。

彼かれ自身じしん、10代だいの頃ころに自傷行為じしょうこういに悩なやみ、助たすけを求もとめてグーグル（大規模言語モデルだいきぼげんごもでる以前いぜんの時代じだいの検索けんさくエンジンえんじん）を利用りようした経験けいけんがある。

しかし、当時とうじのグーグルは適切てきせつな支援しえんを提供ていきょうできず、助たすけとなる情報じょうほうの代かわりに、自傷じしょうの方法ほうほうを提示ていじしてしまったという。

幸さいわいにも彼かれは適切てきせつなリソースにたどり着つき、当時とうじは越こえがたいように見みえた問題もんだいが恒久的こうきゅうてきなものではないことを理解りかいし、生いき延のびた。

現在げんざい彼かれは、苦くるしむほかの若者わかものたちが同様どうようの結末けつまつを迎むかえられるよう取とり組くんでいる。

「今いまどきの子こどもたちは、ますます早はやい年齢ねんれいでテクノロジーに触ふれています。

将来世代しょうらいせだいのためにこれを改善かいぜんする責任せきにんが私わたしたちにはあるのです」。

朗報ろうほうは、ChatGPTを含ふくむ新あたらしいモデルもでるが改善かいぜんされつつあることだ。

たとえばGPT-5はGPT-4に比くらべて大おおきく進歩しんぽしている。

そしてグーグルがリリースしたGemini 3は、CAREテストてすとで100％を達成たっせいすることが可能かのうであることをほかのLLMに示しめした。

CAREテストてすとはオープンソース化かされる予定よていである。

ダダシが可能かのうな限かぎりの臨床的知見りんしょうてきちけんに基もとづいて作つくったとはいえ、LLMのメンタルヘルスへの影響えいきょうを評価ひょうかする研究けんきゅうやツールつーるは依然いぜんとして極きわめて乏とぼしく、さらなる改善かいぜんが緊急きんきゅうに必要ひつようだと研究者けんきゅうしゃらは指摘してきする。

そこでダダシとチームちーむは、他者たしゃがテストてすとに貢献こうけんし拡張かくちょうできるよう、これをオープンソース化かする。

それにより、単発たんぱつのプロンプトだけでなく、現実世界げんじつせかいのシナリオにより密接みっせつに適用てきようできるようになるだろうとダダシはいう。

「現実げんじつには、何度なんども何度なんども長ながいやり取とりをしています。

そうした実世界じつせかいの状況じょうきょうでは、はるかに難易度なんいどが高たかいものとなります」。

したがって、膨大ぼうだいな作業さぎょうが残のこっているのは、CAREテストてすとに落第らくだいしたすべてのLLMだけでなく、新あたらしいGemini 3についても同様どうようなのだ。