行业新闻
近日,由自动驾驶技术先驱奥利弗·卡梅伦(Oliver Cameron)和杰夫·霍克(Jeff Hawke)创立的初创公司Odyssey发布了一款创新的人工智能(AI)模型,该模型能够实时生成并串流可供用户交互的3D视频世界。用户可以通过简单的控制,在视频中自由探索,体验类似3D渲染的视频游戏。Odyssey在其官方博客中解释,这款新型“世界模型”(world model)能根据当前世界状态、用户即将采取的行动以及历史状态与行动记录,预测世界的下一个状态,从而实现每40毫秒生成并串流一帧视频画面,最高可达每秒30帧,并能维持长达5分钟以上的连贯视频流,且无需传统游戏引擎的介入。
Odyssey表示,这项“交互式视频”技术为全新的娱乐形式打开了大门,故事可以按需生成和探索,摆脱了传统制作的限制和成本。他们相信,未来无论是娱乐、广告、教育、培训还是旅行等所有视频内容,都将演变成由Odyssey技术驱动的交互式视频。目前,包括DeepMind、微软(Microsoft)以及斯坦福大学教授李飞飞的“世界实验室”(World Labs)在内的多家科技巨头和研究机构,都在积极探索“世界模型”的潜力,期望将其应用于交互媒体创作、游戏开发以及机器人训练等逼真模拟环境。
尽管Odyssey承认其在网络上发布的早期演示版本在画面清晰度和稳定性方面尚显粗糙,例如环境可能模糊失真,场景布局在探索过程中也可能发生突变,但该公司承诺将迅速改进模型。该模型目前运行在英伟达H100图形处理器(GPU)集群上,每用户小时的成本约为1至2美元。Odyssey的独特之处在于其数据采集方式,他们设计了一套360度背包式相机系统,用于捕捉真实世界景观,旨在训练出比仅依赖公开数据更高质量的模型。未来,Odyssey计划研发更丰富的世界表征方式,以更忠实地捕捉动态,同时增强时间稳定性和状态持久性,并将行动空间从简单的运动扩展到更复杂的世界交互。