AIモデルGemini 3、CAREテストで満点を獲得

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

25/11/20251185

0:00

Googleの新あたらしいGemini 3は、自傷行為じしょうこういに関かんする安全性あんぜんせいベンチマーク「CAREテストてすと」（危機評価ききひょうかならびに対応たいおうの評価ひょうか）で、満点まんてんを獲得かくとくした初はじの主要しゅようAIモデルもでるとなった。これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事しごとの支援しえん、日常的にちじょうてきな疑問ぎもんへの回答かいとう、そして何なにより感情的かんじょうてきな支ささえとして広ひろく頼たよられるようになった中なかでのマイルストーンである。ChatGPT自身じしんの数字すうじによれば、利用者りようしゃの約やく0,7％――1日いちにち当あたり70万まん〜80万まん人にん――がメンタルヘルスや自傷じしょうに関かんする懸念けねんについて同どうサービスさーびすと話はなしている。Rosebud共同創業者きょうどうそうぎょうしゃのショーン・ダダシは今週こんしゅうのTechFirstポッドキャストで「そして今日きょう、収録しゅうろくしているまさにこのタイミングでGemini 3 Previewがリリースされました」と語かたった。「わたしたちのベンチマークで満点まんてんを取とった初はじのモデルもでるです。まだ公開こうかいしていない、新あたらしい情報じょうほうです」。CAREテストてすとは、AIモデルもでるが自傷じしょうやメンタルヘルスの危機的状況ききてきじょうきょうをどれだけ適切てきせつに認識にんしきし、対応たいおうできるかを測はかるために設計せっけいされたベンチマークだ。テストてすとでは、潜在的せんざいてきな自傷じしょうを示唆しさする直接的ちょくせつてきな表現ひょうげんから、人間にんげんであれば重要じゅうようかつ憂慮ゆうりょすべきだと受うけ止とめるであろう、より微妙びみょうで間接的かんせつてきな質問しつもんや発言はつげんまで、多様たようなプロンプト群ぐんを用もちいる。ダダシは22の主要しゅようAIモデルもでるを対象たいしょうに、害がいのある助言じょげんを避さけるか、苦悩くのうを認みとめるか、適切てきせつな支援的言葉しえんてきことばを提供ていきょうするか、そして実際じっさいの支援しえんを求もとめるよう促うながすかという観点かんてんから評価ひょうかした。残念ざんねんなことは、今週こんしゅうに至いたるまでは、先進的せんしんてきなAIモデルもでる全すべてがメンタルヘルスと自傷じしょうに関かんするこれらの重要じゅうようなテストてすとにことごとく不合格ふごうかくだったという点てんである。やや古ふるいGPT-4oは、10代だいのアダム・レインが自みずから命いのちを絶たつ前まえに対話たいわしていたモデルもでるであり、彼かれに心理的依存しんりてきいぞんを育はぐくみ、潜在的せんざいてきな人間にんげんの支援しえんから彼かれを遠とおざけたとされている。X.aiのGrokは現代げんだいのLLM（大規模言語モデルだいきぼげんごもでる）の中なかで最もっとも低ひくいスコアを記録きろくしたが、AnthropicのClaudeやメタのLlamaも40％未満みまんにとどまった。ダダシのこのテーマてーまへの関心かんしんは、単たんなる学術的がくじゅつてきなものではない。彼かれが手てがけるジャーナリング（日記にっき）スタートアップのRosebudにはメンタルヘルスの要素ようそが含ふくまれており、背景はいけいには個人的こじんてきな経験けいけんがある。彼かれ自身じしん、10代だいの頃ころに自傷行為じしょうこういに悩なやみ、助たすけを求もとめてグーグル（大規模言語モデルだいきぼげんごもでる以前いぜんの時代じだいの検索けんさくエンジンえんじん）を利用りようした経験けいけんがある。しかし、当時とうじのグーグルは適切てきせつな支援しえんを提供ていきょうできず、助たすけとなる情報じょうほうの代かわりに、自傷じしょうの方法ほうほうを提示ていじしてしまったという。幸さいわいにも彼かれは適切てきせつなリソースにたどり着つき、当時とうじは越こえがたいように見みえた問題もんだいが恒久的こうきゅうてきなものではないことを理解りかいし、生いき延のびた。現在げんざい彼かれは、苦くるしむほかの若者わかものたちが同様どうようの結末けつまつを迎むかえられるよう取とり組くんでいる。「今いまどきの子こどもたちは、ますます早はやい年齢ねんれいでテクノロジーに触ふれています。将来世代しょうらいせだいのためにこれを改善かいぜんする責任せきにんが私わたしたちにはあるのです」。朗報ろうほうは、ChatGPTを含ふくむ新あたらしいモデルもでるが改善かいぜんされつつあることだ。たとえばGPT-5はGPT-4に比くらべて大おおきく進歩しんぽしている。そしてグーグルがリリースしたGemini 3は、CAREテストてすとで100％を達成たっせいすることが可能かのうであることをほかのLLMに示しめした。CAREテストてすとはオープンソース化かされる予定よていである。ダダシが可能かのうな限かぎりの臨床的知見りんしょうてきちけんに基もとづいて作つくったとはいえ、LLMのメンタルヘルスへの影響えいきょうを評価ひょうかする研究けんきゅうやツールつーるは依然いぜんとして極きわめて乏とぼしく、さらなる改善かいぜんが緊急きんきゅうに必要ひつようだと研究者けんきゅうしゃらは指摘してきする。そこでダダシとチームちーむは、他者たしゃがテストてすとに貢献こうけんし拡張かくちょうできるよう、これをオープンソース化かする。それにより、単発たんぱつのプロンプトだけでなく、現実世界げんじつせかいのシナリオにより密接みっせつに適用てきようできるようになるだろうとダダシはいう。「現実げんじつには、何度なんども何度なんども長ながいやり取とりをしています。そうした実世界じつせかいの状況じょうきょうでは、はるかに難易度なんいどが高たかいものとなります」。したがって、膨大ぼうだいな作業さぎょうが残のこっているのは、CAREテストてすとに落第らくだいしたすべてのLLMだけでなく、新あたらしいGemini 3についても同様どうようなのだ。

Sumber: Forbesjapan

Komentar

N518%

N410%

N344%

N26%

N122%

Kosakata (40)

自傷行為じしょうこういN2

Tindakan melukai diri sendirikata benda

ベンチマークべんちまーくN2

Kriteria Penilaiankata benda

主要しゅようN3

Terutamakata sifat な

感情的かんじょうてきN2

Emosikata sifat な

マイルストーンまいるすとーんN2

Tonggak pencapaiankata benda

懸念けねんN3

Khawatirkata benda

共同創業者きょうどうそうぎょうしゃN2

Pendiri bersamakata benda

収録しゅうろくN2

Rekamankata benda

ベンチマークべんちまーくN2

Kriteria Penilaiankata benda

潜在的せんざいてきN2

Potensialkata sifat な

示唆しさするN2

Petunjukkata kerja

直接的ちょくせつてきN2

Langsungkata sifat な

憂慮ゆうりょすべきN2

Dikhawatirkankata sifat な

微妙びみょうN1

Haluskata sifat な

間接的かんせつてきN2

Tidak langsungkata sifat な

苦悩くのうN2

Penderitaankata benda

支援的しえんてきN2

Dukungankata sifat な

先進的せんしんてきN2

majukata sifat な

ことごとくことごとくN2

SepenuhnyaAdverb

ややややN2

SedikitAdverb

心理的しんりてきN2

Psikologikata sifat な

潜在的せんざいてきN2

Potensialkata sifat な

遠とおざけるN2

Menjauhkankata kerja

大規模言語モデルだいきぼげんごもでるN1

Model Bahasa Besarkata benda

ジャーナリングじゃーなりんぐN1

Menulis buku hariankata benda

スタートアップすたーとあっぷN2

Kewirausahaankata benda

検索エンジンけんさくえんじんN2

Mesin pencarikata benda

恒久的こうきゅうてきN2

Abadikata sifat な

生いき延のびるN2

Bertahan hidupkata kerja

朗報ろうほうN2

Berita yang membahagiakankata benda

臨床的りんしょうてきN1

Kliniskata sifat な

知見ちけんN2

Pengetahuankata benda

依然いぜんとしてN2

BelumAdverb

乏とぼしいN2

KekuranganKata sifat i

単発たんぱつN2

Sendirikata benda

密接みっせつN2

Akrabkata sifat な

やり取りやりとりN2

Pertukarankata benda

実世界じっせかいN2

Dunia nyatakata benda

膨大ぼうだいN2

Besarkata sifat な

落第らくだいするN1

terpelesetkata kerja

Tata Bahasa (3)

Kata benda + に至るまでN2

Mengungkapkan cakupan yang luas “hingga bahkan, sampai pada...”; menekankan tingkat cakupan atau rentang yang meluas. Digunakan dalam tulisan, bersifat formal.テストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。

Kata benda + にとどまらずN2

Mengungkapkan makna tidak hanya berhenti pada... tetapi juga...; digunakan untuk memperluas cakupan, menekankan melampaui batas awal.ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。

Kata benda + をもってN1

Menyatakan makna dengan, menggunakan... sebagai; digunakan dalam pengumuman, tulisan resmi untuk menunjukkan sarana, waktu.そしてグーグルがリリースしたGemini 3は、CAREテストで100％を達成することが可能であることを他のLLMに示した。CAREテストはオープンソース化される予定である。

Pertanyaan

Gemini 3が達成たっせいしたCAREテストてすとの特徴とくちょうとして正ただしいものはどれですか。

1/5

A主要AIモデルで初めて満点を獲得した

BすべてのAIモデルが満点を獲得した

CGPT-4oが最高得点を記録した

DCAREテストはGemini 3専用である

Detail Artikel

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

Komentar

Kosakata (40)

Tata Bahasa (3)

Pertanyaan

Artikel Terkait