AI研究は現在、言語や画像の生成モデルからワールドモデル(世界モデル)への重点が移りつつある。これは、実際の物理世界をシミュレートし、環境を推論する技術であり、ロボットや自動運転車などの用途には欠かせない。この転換は、メタやグーグルをはじめとする大手テクノロジー企業が集中的に取り組んでいることからも明らかである。メタのチーフAIサイエンティストであるヤン・ルカンは、ワールドモデルへの研究に注力する意向を強調している。フェイフェイ・リーが主導するWorld Labsは、Marbleというモデルを一般公開した。また、グーグルはGenieモデルをテストしており、エヌビディアは物理空間で動作するAI向けのOmniverseとCosmosプラットフォームを開発している。これらの取り組みから、AI研究は二次元のテキストや画像の理解を超えて、三次元空間の物理的シミュレーションに挑戦しようとしていることがうかがえる。
フェイフェイ・リーは、人間の認知の根幹は空間的知性にあり、現代のAIに最も欠けているのはこの能力であると指摘している。人間は物理法則と空間的な相互関係のもとに存在し、世界の中で生きて行動する。しかし現在のAIは、記号的表現に基づいて世界を解釈しているにすぎない。自動運転車はこの技術の実用化の一例だが、その運用範囲は高度に構造化されている。より複雑な環境で機能するには、AIは空間的な相互作用をより幅広く理解し、シミュレートする必要がある。
現行のワールドモデルを実用化する試みは、将来に向けた可能性と、いまだ克服すべき技術的課題の双方を明らかにしている。たとえば、筆者がMarbleモデルを使ってゴッホの「アルルの寝室」の絵を三次元で再現させてみたところ、不完全な描写が現れた。壁や家具などが不完全にぼやけて表示され、物体の詳細が失われてしまったのである。これは、ワールドモデルが限られたデータから構造的に一貫性のある空間を構成できる一方で、より複雑な状況では細部の保持や精密な推論に限界があることを意味している。
有効なワールドモデルを作るためには、過去のAI分野をはるかに超える技術的課題を克服しなければならない。物理空間を忠実に再現するには、新たな状態を予測し、膨大なデータと文脈的・因果的関係の理解が要求される。さらには、AIは時間を超えて情報を保持し、首尾一貫した行動を続ける記憶能力も獲得しなければならない。このような複雑な技術的課題を解決するだけでなく、新たなリスクも浮上する。物理世界に適用されるAIシステムが、人間の指示なしに行動する場合、理解やシミュレーションの限界が現実世界での有害な変化を引き起こしかねないからだ。
したがって、ワールドモデルの開発には、技術的な挑戦を克服すると同時に、この技術を安全で信頼性の高い方法で社会に受け入れるための枠組みの構築も必要である。