AI研究は現在、言語や画像の生成モデルからワールドモデル(世界モデル)への重点が移りつつある。
目前的AI研究正從語言及影像生成模型,轉向以世界模型為焦點。
これは、実際の物理世界をシミュレートし、環境を推論する技術であり、ロボットや自動運転車などの用途には欠かせない。
這是一項模擬現實物理世界並推論環境的技術,對於機器人和自動駕駛車等應用來說是不可或缺的。
この転換は、メタやグーグルをはじめとする大手テクノロジー企業が集中的に取り組んでいることからも明らかである。
這一變化也明顯地體現在像Meta和Google這樣的大型科技公司正專注於這一領域的開發。
メタのチーフAIサイエンティストであるヤン・ルカンは、ワールドモデルへの研究に注力する意向を強調している。
Meta的AI首席科學家楊·勒坎強調,他將專注於世界模型的研究。
フェイフェイ・リーが主導するWorld Labsは、Marbleというモデルを一般公開した。
由李飛飛領導的World Labs已廣泛公開Marble模型。
また、グーグルはGenieモデルをテストしており、エヌビディアは物理空間で動作するAI向けのOmniverseとCosmosプラットフォームを開発している。
Google正在測試Genie模型,而Nvidia正在開發用於在物理空間運作的AI之Omniverse和Cosmos平台。
これらの取り組みから、AI研究は二次元のテキストや画像の理解を超えて、三次元空間の物理的シミュレーションに挑戦しようとしていることがうかがえる。
這些努力顯示,AI研究已經超越了對文本和二維圖像的理解,正在挑戰在三維空間中的物理模擬。
フェイフェイ・リーは、人間の認知の根幹は空間的知性にあり、現代のAIに最も欠けているのはこの能力であると指摘している。
費菲·李指出,人類認知的核心在於空間智能,而這正是現代人工智慧最為缺乏的能力。
人間は物理法則と空間的な相互関係のもとに存在し、世界の中で生きて行動する。
人類是基於物理法則與空間關係而存在,在現實世界中生活並行動。
しかし現在のAIは、記号的表現に基づいて世界を解釈しているにすぎない。
自動運転車はこの技術の実用化の一例だが、その運用範囲は高度に構造化されている。
自動駕駛車是這項技術的實際應用範例,但其運行範圍依然被非常嚴格地結構化。
より複雑な環境で機能するには、AIは空間的な相互作用をより幅広く理解し、シミュレートする必要がある。
為了在更複雜的環境中活動,AI 必須更廣泛地理解並模擬空間上的互動。
現行のワールドモデルを実用化する試みは、将来に向けた可能性と、いまだ克服すべき技術的課題の双方を明らかにしている。
目前針對世界模型的應用所做的努力,既展現了未來的可能性,也揭示了今後需要克服的技術性課題。
たとえば、筆者がMarbleモデルを使ってゴッホの「アルルの寝室」の絵を三次元で再現させてみたところ、不完全な描写が現れた。
例如,作者使用大理石模型來三維重現梵谷的《阿爾的臥室》時,結果出現了不完全的描繪。
壁や家具などが不完全にぼやけて表示され、物体の詳細が失われてしまったのである。
これは、ワールドモデルが限られたデータから構造的に一貫性のある空間を構成できる一方で、より複雑な状況では細部の保持や精密な推論に限界があることを意味している。
這說明即使世界模型能夠從有限的數據中構建出一致的空間結構,在更複雜的情境下,於細節的保留與正確推論方面仍然存在限制。
有効なワールドモデルを作るためには、過去のAI分野をはるかに超える技術的課題を克服しなければならない。
為了建立有效的世界模型,必須克服遠超過以往AI領域的技術性課題。
物理空間を忠実に再現するには、新たな状態を予測し、膨大なデータと文脈的・因果的関係の理解が要求される。
為了忠實地重現物理空間,AI必須能夠預測新的狀態,並理解龐大的數據量以及脈絡和因果關係。
さらには、AIは時間を超えて情報を保持し、首尾一貫した行動を続ける記憶能力も獲得しなければならない。
此外,AI需要花時間記憶資訊,並具備維持一致行動的能力。
このような複雑な技術的課題を解決するだけでなく、新たなリスクも浮上する。
不僅要解決這些複雜的技術性課題,新的風險也正在出現。
物理世界に適用されるAIシステムが、人間の指示なしに行動する場合、理解やシミュレーションの限界が現実世界での有害な変化を引き起こしかねないからだ。
若AI系統在沒有人的指示下於物理世界中行動,可能因理解或模擬的限制,對現實世界帶來有害的變化。
したがって、ワールドモデルの開発には、技術的な挑戦を克服すると同時に、この技術を安全で信頼性の高い方法で社会に受け入れるための枠組みの構築も必要である。
因此,開發世界模型時,不僅需要克服技術上的挑戰,還必須建立一個框架,使這項技術能以安全且值得信賴的方式被社會接受。