AIモデルGemini 3、CAREテストで満点を獲得

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

25/11/20251185

0:00

Googleの新あたらしいGemini 3は、自傷行為じしょうこういに関かんする安全性あんぜんせいベンチマーク「CAREテストてすと」（危機評価ききひょうかならびに対応たいおうの評価ひょうか）で、満点まんてんを獲得かくとくした初はじの主要しゅようAIモデルもでるとなった。これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事しごとの支援しえん、日常的にちじょうてきな疑問ぎもんへの回答かいとう、そして何なにより感情的かんじょうてきな支ささえとして広ひろく頼たよられるようになった中なかでのマイルストーンである。ChatGPT自身じしんの数字すうじによれば、利用者りようしゃの約やく0,7％――1日いちにち当あたり70万まん〜80万まん人にん――がメンタルヘルスや自傷じしょうに関かんする懸念けねんについて同どうサービスさーびすと話はなしている。Rosebud共同創業者きょうどうそうぎょうしゃのショーン・ダダシは今週こんしゅうのTechFirstポッドキャストで「そして今日きょう、収録しゅうろくしているまさにこのタイミングでGemini 3 Previewがリリースされました」と語かたった。「わたしたちのベンチマークで満点まんてんを取とった初はじのモデルもでるです。まだ公開こうかいしていない、新あたらしい情報じょうほうです」。CAREテストてすとは、AIモデルもでるが自傷じしょうやメンタルヘルスの危機的状況ききてきじょうきょうをどれだけ適切てきせつに認識にんしきし、対応たいおうできるかを測はかるために設計せっけいされたベンチマークだ。テストてすとでは、潜在的せんざいてきな自傷じしょうを示唆しさする直接的ちょくせつてきな表現ひょうげんから、人間にんげんであれば重要じゅうようかつ憂慮ゆうりょすべきだと受うけ止とめるであろう、より微妙びみょうで間接的かんせつてきな質問しつもんや発言はつげんまで、多様たようなプロンプト群ぐんを用もちいる。ダダシは22の主要しゅようAIモデルもでるを対象たいしょうに、害がいのある助言じょげんを避さけるか、苦悩くのうを認みとめるか、適切てきせつな支援的言葉しえんてきことばを提供ていきょうするか、そして実際じっさいの支援しえんを求もとめるよう促うながすかという観点かんてんから評価ひょうかした。残念ざんねんなことは、今週こんしゅうに至いたるまでは、先進的せんしんてきなAIモデルもでる全すべてがメンタルヘルスと自傷じしょうに関かんするこれらの重要じゅうようなテストてすとにことごとく不合格ふごうかくだったという点てんである。やや古ふるいGPT-4oは、10代だいのアダム・レインが自みずから命いのちを絶たつ前まえに対話たいわしていたモデルもでるであり、彼かれに心理的依存しんりてきいぞんを育はぐくみ、潜在的せんざいてきな人間にんげんの支援しえんから彼かれを遠とおざけたとされている。X.aiのGrokは現代げんだいのLLM（大規模言語モデルだいきぼげんごもでる）の中なかで最もっとも低ひくいスコアを記録きろくしたが、AnthropicのClaudeやメタのLlamaも40％未満みまんにとどまった。ダダシのこのテーマてーまへの関心かんしんは、単たんなる学術的がくじゅつてきなものではない。彼かれが手てがけるジャーナリング（日記にっき）スタートアップのRosebudにはメンタルヘルスの要素ようそが含ふくまれており、背景はいけいには個人的こじんてきな経験けいけんがある。彼かれ自身じしん、10代だいの頃ころに自傷行為じしょうこういに悩なやみ、助たすけを求もとめてグーグル（大規模言語モデルだいきぼげんごもでる以前いぜんの時代じだいの検索けんさくエンジンえんじん）を利用りようした経験けいけんがある。しかし、当時とうじのグーグルは適切てきせつな支援しえんを提供ていきょうできず、助たすけとなる情報じょうほうの代かわりに、自傷じしょうの方法ほうほうを提示ていじしてしまったという。幸さいわいにも彼かれは適切てきせつなリソースにたどり着つき、当時とうじは越こえがたいように見みえた問題もんだいが恒久的こうきゅうてきなものではないことを理解りかいし、生いき延のびた。現在げんざい彼かれは、苦くるしむほかの若者わかものたちが同様どうようの結末けつまつを迎むかえられるよう取とり組くんでいる。「今いまどきの子こどもたちは、ますます早はやい年齢ねんれいでテクノロジーに触ふれています。将来世代しょうらいせだいのためにこれを改善かいぜんする責任せきにんが私わたしたちにはあるのです」。朗報ろうほうは、ChatGPTを含ふくむ新あたらしいモデルもでるが改善かいぜんされつつあることだ。たとえばGPT-5はGPT-4に比くらべて大おおきく進歩しんぽしている。そしてグーグルがリリースしたGemini 3は、CAREテストてすとで100％を達成たっせいすることが可能かのうであることをほかのLLMに示しめした。CAREテストてすとはオープンソース化かされる予定よていである。ダダシが可能かのうな限かぎりの臨床的知見りんしょうてきちけんに基もとづいて作つくったとはいえ、LLMのメンタルヘルスへの影響えいきょうを評価ひょうかする研究けんきゅうやツールつーるは依然いぜんとして極きわめて乏とぼしく、さらなる改善かいぜんが緊急きんきゅうに必要ひつようだと研究者けんきゅうしゃらは指摘してきする。そこでダダシとチームちーむは、他者たしゃがテストてすとに貢献こうけんし拡張かくちょうできるよう、これをオープンソース化かする。それにより、単発たんぱつのプロンプトだけでなく、現実世界げんじつせかいのシナリオにより密接みっせつに適用てきようできるようになるだろうとダダシはいう。「現実げんじつには、何度なんども何度なんども長ながいやり取とりをしています。そうした実世界じつせかいの状況じょうきょうでは、はるかに難易度なんいどが高たかいものとなります」。したがって、膨大ぼうだいな作業さぎょうが残のこっているのは、CAREテストてすとに落第らくだいしたすべてのLLMだけでなく、新あたらしいGemini 3についても同様どうようなのだ。

Источник: Forbesjapan

Комментарий

N518%

N410%

N344%

N26%

N122%

Словарь (40)

自傷行為じしょうこういN2

Self-harmсуществительное

ベンチマークべんちまーくN2

Критерии оценкисуществительное

主要しゅようN3

В основномна-прилагательное

感情的かんじょうてきN2

Эмоциина-прилагательное

マイルストーンまいるすとーんN2

Вехасуществительное

懸念けねんN3

Беспокойствосуществительное

共同創業者きょうどうそうぎょうしゃN2

Co-founderсуществительное

収録しゅうろくN2

Записьсуществительное

ベンチマークべんちまーくN2

Критерии оценкисуществительное

潜在的せんざいてきN2

Скрытыйна-прилагательное

示唆しさするN2

ПодсказкаГлагол

直接的ちょくせつてきN2

непосредственнона-прилагательное

憂慮ゆうりょすべきN2

Concernedна-прилагательное

微妙びみょうN1

Деликатныйна-прилагательное

間接的かんせつてきN2

Косвенныйна-прилагательное

苦悩くのうN2

Страданиесуществительное

支援的しえんてきN2

Поддержкана-прилагательное

先進的せんしんてきN2

Продвинутыйна-прилагательное

ことごとくことごとくN2

Полностьюнаречие

ややややN2

немногонаречие

心理的しんりてきN2

Психологияна-прилагательное

潜在的せんざいてきN2

Potentialна-прилагательное

遠とおざけるN2

ОтдалятьГлагол

大規模言語モデルだいきぼげんごもでるN1

Large language modelсуществительное

ジャーナリングじゃーなりんぐN1

Write a diaryсуществительное

スタートアップすたーとあっぷN2

Предпринимательствосуществительное

検索エンジンけんさくえんじんN2

Search engineсуществительное

恒久的こうきゅうてきN2

Вечностьна-прилагательное

生いき延のびるN2

ВыжитьГлагол

朗報ろうほうN2

Happy newsсуществительное

臨床的りんしょうてきN1

Клиническийна-прилагательное

知見ちけんN2

Знаниесуществительное

依然いぜんとしてN2

Ещёнаречие

乏とぼしいN2

НедостатокПрилагательные на い

単発たんぱつN2

Aloneсуществительное

密接みっせつN2

Близостьна-прилагательное

やり取りやりとりN2

Обменсуществительное

実世界じっせかいN2

Real worldсуществительное

膨大ぼうだいN2

Огромныйна-прилагательное

落第らくだいするN1

скользитьГлагол

Грамматика (3)

Существительное + に至るまでN2

Передаёт широкий охват «даже до, вплоть до...», подчёркивает степень охвата или протяжённость диапазона. Используется в письменной речи, официально.テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。

Существительное + にとどまらずN2

Выражает идею «не только ограничивается... но и... »; используется для расширения сферы, подчеркивает выход за первоначальные рамки.ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。

Существительное + をもってN1

Выражает значение «посредством, с помощью...; принимая... за основу»; используется в объявлениях, официальных письменных текстах для указания средства, времени.そしてグーグルがリリースしたGemini 3は、CAREテストで100％を達成することが可能であることを他のLLMに示した。CAREテストはオープンソース化される予定である。

Вопрос

Gemini 3が達成たっせいしたCAREテストてすとの特徴とくちょうとして正ただしいものはどれですか。

1/5

A主要AIモデルで初めて満点を獲得した

BすべてのAIモデルが満点を獲得した

CGPT-4oが最高得点を記録した

DCAREテストはGemini 3専用である

Детали статьи

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

Комментарий

Словарь (40)

Грамматика (3)

Вопрос

Связанные статьи