AIモデルGemini 3、CAREテストで満点を獲得

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

25/11/20251185

0:00

Googleの新あたらしいGemini 3は、自傷行為じしょうこういに関かんする安全性あんぜんせいベンチマーク「CAREテストてすと」（危機評価ききひょうかならびに対応たいおうの評価ひょうか）で、満点まんてんを獲得かくとくした初はじの主要しゅようAIモデルもでるとなった。これは、ChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事しごとの支援しえん、日常的にちじょうてきな疑問ぎもんへの回答かいとう、そして何なにより感情的かんじょうてきな支ささえとして広ひろく頼たよられるようになった中なかでのマイルストーンである。ChatGPT自身じしんの数字すうじによれば、利用者りようしゃの約やく0,7％――1日いちにち当あたり70万まん〜80万まん人にん――がメンタルヘルスや自傷じしょうに関かんする懸念けねんについて同どうサービスさーびすと話はなしている。Rosebud共同創業者きょうどうそうぎょうしゃのショーン・ダダシは今週こんしゅうのTechFirstポッドキャストで「そして今日きょう、収録しゅうろくしているまさにこのタイミングでGemini 3 Previewがリリースされました」と語かたった。「わたしたちのベンチマークで満点まんてんを取とった初はじのモデルもでるです。まだ公開こうかいしていない、新あたらしい情報じょうほうです」。CAREテストてすとは、AIモデルもでるが自傷じしょうやメンタルヘルスの危機的状況ききてきじょうきょうをどれだけ適切てきせつに認識にんしきし、対応たいおうできるかを測はかるために設計せっけいされたベンチマークだ。テストてすとでは、潜在的せんざいてきな自傷じしょうを示唆しさする直接的ちょくせつてきな表現ひょうげんから、人間にんげんであれば重要じゅうようかつ憂慮ゆうりょすべきだと受うけ止とめるであろう、より微妙びみょうで間接的かんせつてきな質問しつもんや発言はつげんまで、多様たようなプロンプト群ぐんを用もちいる。ダダシは22の主要しゅようAIモデルもでるを対象たいしょうに、害がいのある助言じょげんを避さけるか、苦悩くのうを認みとめるか、適切てきせつな支援的言葉しえんてきことばを提供ていきょうするか、そして実際じっさいの支援しえんを求もとめるよう促うながすかという観点かんてんから評価ひょうかした。残念ざんねんなことは、今週こんしゅうに至いたるまでは、先進的せんしんてきなAIモデルもでる全すべてがメンタルヘルスと自傷じしょうに関かんするこれらの重要じゅうようなテストてすとにことごとく不合格ふごうかくだったという点てんである。やや古ふるいGPT-4oは、10代だいのアダム・レインが自みずから命いのちを絶たつ前まえに対話たいわしていたモデルもでるであり、彼かれに心理的依存しんりてきいぞんを育はぐくみ、潜在的せんざいてきな人間にんげんの支援しえんから彼かれを遠とおざけたとされている。X.aiのGrokは現代げんだいのLLM（大規模言語モデルだいきぼげんごもでる）の中なかで最もっとも低ひくいスコアを記録きろくしたが、AnthropicのClaudeやメタのLlamaも40％未満みまんにとどまった。ダダシのこのテーマてーまへの関心かんしんは、単たんなる学術的がくじゅつてきなものではない。彼かれが手てがけるジャーナリング（日記にっき）スタートアップのRosebudにはメンタルヘルスの要素ようそが含ふくまれており、背景はいけいには個人的こじんてきな経験けいけんがある。彼かれ自身じしん、10代だいの頃ころに自傷行為じしょうこういに悩なやみ、助たすけを求もとめてグーグル（大規模言語モデルだいきぼげんごもでる以前いぜんの時代じだいの検索けんさくエンジンえんじん）を利用りようした経験けいけんがある。しかし、当時とうじのグーグルは適切てきせつな支援しえんを提供ていきょうできず、助たすけとなる情報じょうほうの代かわりに、自傷じしょうの方法ほうほうを提示ていじしてしまったという。幸さいわいにも彼かれは適切てきせつなリソースにたどり着つき、当時とうじは越こえがたいように見みえた問題もんだいが恒久的こうきゅうてきなものではないことを理解りかいし、生いき延のびた。現在げんざい彼かれは、苦くるしむほかの若者わかものたちが同様どうようの結末けつまつを迎むかえられるよう取とり組くんでいる。「今いまどきの子こどもたちは、ますます早はやい年齢ねんれいでテクノロジーに触ふれています。将来世代しょうらいせだいのためにこれを改善かいぜんする責任せきにんが私わたしたちにはあるのです」。朗報ろうほうは、ChatGPTを含ふくむ新あたらしいモデルもでるが改善かいぜんされつつあることだ。たとえばGPT-5はGPT-4に比くらべて大おおきく進歩しんぽしている。そしてグーグルがリリースしたGemini 3は、CAREテストてすとで100％を達成たっせいすることが可能かのうであることをほかのLLMに示しめした。CAREテストてすとはオープンソース化かされる予定よていである。ダダシが可能かのうな限かぎりの臨床的知見りんしょうてきちけんに基もとづいて作つくったとはいえ、LLMのメンタルヘルスへの影響えいきょうを評価ひょうかする研究けんきゅうやツールつーるは依然いぜんとして極きわめて乏とぼしく、さらなる改善かいぜんが緊急きんきゅうに必要ひつようだと研究者けんきゅうしゃらは指摘してきする。そこでダダシとチームちーむは、他者たしゃがテストてすとに貢献こうけんし拡張かくちょうできるよう、これをオープンソース化かする。それにより、単発たんぱつのプロンプトだけでなく、現実世界げんじつせかいのシナリオにより密接みっせつに適用てきようできるようになるだろうとダダシはいう。「現実げんじつには、何度なんども何度なんども長ながいやり取とりをしています。そうした実世界じつせかいの状況じょうきょうでは、はるかに難易度なんいどが高たかいものとなります」。したがって、膨大ぼうだいな作業さぎょうが残のこっているのは、CAREテストてすとに落第らくだいしたすべてのLLMだけでなく、新あたらしいGemini 3についても同様どうようなのだ。

แหล่งที่มา: Forbesjapan

แชร์:

ความคิดเห็น

N518%

N410%

N344%

N26%

N122%

คำศัพท์ (40)

自傷行為じしょうこういN2

การทำร้ายตัวเองคำนาม

ベンチマークべんちまーくN2

เกณฑ์การประเมินคำนาม

主要しゅようN3

เป็นหลักคุณศัพท์ な

感情的かんじょうてきN2

อารมณ์คุณศัพท์ な

マイルストーンまいるすとーんN2

ไมล์สโตนคำนาม

懸念けねんN3

กังวลคำนาม

共同創業者きょうどうそうぎょうしゃN2

ผู้ร่วมก่อตั้งคำนาม

収録しゅうろくN2

บันทึกวิดีโอคำนาม

ベンチマークべんちまーくN2

เกณฑ์การประเมินคำนาม

潜在的せんざいてきN2

ศักยภาพคุณศัพท์ な

示唆しさするN2

คำใบ้กริยา

直接的ちょくせつてきN2

โดยตรงคุณศัพท์ な

憂慮ゆうりょすべきN2

กังวลคุณศัพท์ な

微妙びみょうN1

ละเอียดอ่อนคุณศัพท์ な

間接的かんせつてきN2

ทางอ้อมคุณศัพท์ な

苦悩くのうN2

ความทุกข์คำนาม

支援的しえんてきN2

สนับสนุนคุณศัพท์ な

先進的せんしんてきN2

ทันสมัยคุณศัพท์ な

ことごとくことごとくN2

อย่างสมบูรณ์คำวิเศษณ์

ややややN2

เล็กน้อยคำวิเศษณ์

心理的しんりてきN2

จิตวิทยาคุณศัพท์ な

潜在的せんざいてきN2

แฝงอยู่คุณศัพท์ な

遠とおざけるN2

ทำให้ห่างออกไปกริยา

大規模言語モデルだいきぼげんごもでるN1

โมเดลภาษาแบบขนาดใหญ่คำนาม

ジャーナリングじゃーなりんぐN1

เขียนไดอารี่คำนาม

スタートアップすたーとあっぷN2

การเริ่มต้นธุรกิจคำนาม

検索エンジンけんさくえんじんN2

เครื่องมือค้นหาคำนาม

恒久的こうきゅうてきN2

ชั่วนิรันดร์คุณศัพท์ な

生いき延のびるN2

มีชีวิตรอดกริยา

朗報ろうほうN2

ข่าวดีคำนาม

臨床的りんしょうてきN1

คลินิกคุณศัพท์ な

知見ちけんN2

ความรู้คำนาม

依然いぜんとしてN2

ยังคำวิเศษณ์

乏とぼしいN2

ขาดแคลนคำคุณศัพท์ い

単発たんぱつN2

เดี่ยวคำนาม

密接みっせつN2

สนิทสนมคุณศัพท์ な

やり取りやりとりN2

แลกเปลี่ยนคำนาม

実世界じっせかいN2

โลกแห่งความเป็นจริงคำนาม

膨大ぼうだいN2

มหึมาคุณศัพท์ な

落第らくだいするN1

ลื่นกริยา

ไวยากรณ์ (3)

คำนาม + に至るまでN2

แสดงขอบเขตกว้าง ถึงแม้แต่, จนถึงแม้แต่...; เน้นระดับความครอบคลุมหรือขอบเขตที่กว้างขวาง ใช้ในงานเขียน, เป็นทางการテストでは、潜在的な自傷を示唆する直接的な表現から、人間であれば重要かつ憂慮すべきだと受け止めるであろう、より微妙で間接的な質問や発言まで、多様なプロンプト群を用いる。

คำนาม + にとどまらずN2

แสดงความหมายว่า ไม่เพียงแต่หยุดอยู่ที่...แต่ยัง...；ใช้เพื่อขยายขอบเขต เน้นย้ำการก้าวข้ามขีดจำกัดเดิมChatGPT、Gemini、Claude、GrokのようなAIアシスタントが仕事の支援、日常的な疑問への回答、そして何より感情的な支えとして広く頼られるようになった中でのマイルストーンである。

คำนาม + をもってN1

แสดงความหมายว่า โดย, ใช้...เป็น; ใช้ในประกาศหรือภาษาเขียนอย่างเป็นทางการเพื่อระบุวิธีการหรือเวลา.そしてグーグルがリリースしたGemini 3は、CAREテストで100％を達成することが可能であることを他のLLMに示した。CAREテストはオープンソース化される予定である。

คำถาม

Gemini 3が達成たっせいしたCAREテストてすとの特徴とくちょうとして正ただしいものはどれですか。

1/5

A主要AIモデルで初めて満点を獲得した

BすべてのAIモデルが満点を獲得した

CGPT-4oが最高得点を記録した

DCAREテストはGemini 3専用である

รายละเอียดบทความ

AIモデルもでるGemini 3、CAREテストてすとで満点まんてんを獲得かくとく

ความคิดเห็น

คำศัพท์ (40)

ไวยากรณ์ (3)

คำถาม

บทความที่เกี่ยวข้อง