創業 3 個月估值破 10 億美元的美國斯坦福大學教授李飛飛創辦的 World Labs 再出新成果。當地時間 9 月 16 日,李飛飛團隊展示了一款名為 Marble 的模型的新成果。只需給到一張圖片或者給到一段文字提示,這款模型就能生成一個 3D 世界,用戶可以在這個 3D 世界里隨心所欲地探索,這個 3D 世界既沒有時間限制,也沒有變形和不一致性。相比上一版模型,本次版本的模型能夠生成更大的、風格更加多樣的 3D 世界,同時還擁有更清晰的 3D 幾何圖形。一名未具名的虛幻引擎的 VR 電影制作人表示,自己很想嘗試使用本次模型來向觀眾制作電影故事和設計互動體驗項目。
對于使用本次模型所生成的 3D 世界,用戶通過借助李飛飛團隊的開源渲染庫 Spark,可以將其導出為高斯分布圖,并能將其用于相關的下游項目。Spark 可以將高斯分布圖無縫地集成到開源 JavaScript 庫 Three.js 之中,從而用于構建基于 Web 的 3D 體驗,并能在臺式機、筆記本電腦、移動設備和虛擬現實(VR,Virtual Reality)頭顯上進行高效渲染。該模型具有較好的一致性和風格遵行能力,故能通過組合多個 3D 世界來構建大型 3D 世界。

圖 | 李飛飛
具體來說:
首先,本次模型所生成的 3D 世界具有更好的幾何形狀。對于視覺創作者來說,他們非常需要在能夠 3D 世界中進行導航和交互的一致性的能力。而使用此次本次模型生成的 3D 世界允許用戶在瀏覽器中零成本且自由地進行視點導航。相比此前的同類 3D 產品,本次模型所創建的 3D 世界不僅具有更加豐富的幾何復雜性,還可以生成更加完整的 3D 世界。需要說明的是,本次模型目前主要是能夠創建 3D 環境,而非創建孤立的物體例如人物或者動物。有用戶表示,這一成果讓其可以像電影制作人一樣在連貫一致的 3D 場景中進行規劃和拍攝。還有用戶表示,其使用兩張旅行照片和一張預先加載的圖片創建了一個 3D 世界,這個 3D 世界既可以放大也可以縮小,還能讓人找到圖片中“意想不到的秘密”。
其次,本次模型所生成的 3D 世界在風格上更加多樣。生成式 AI 的好處就是能在創作過程中自由地迭代,正因此該模型允許將各種風格的輸入轉化為 3D 形式。比如,可以轉化為彩色卡通風格,也可以轉化為逼真且細節豐富的風格。

再次,在此之前,人們很難使用 AI 生成大規模的、持久的 3D 幾何體。而對于任何需要合成、拼接、堆疊、持久編輯以及具備大內存的工作流程來說,本次模型都能很好地滿足這些需求。鑒于本次模型能夠實現風格上的連貫性和幾何上的一致性,因此李飛飛團隊在官方博客中表示其能生成比已有案例更大的 3D 世界用例。比如,同樣是生成一個 3D 房間,李飛飛團隊在官方博客中展示了三種不同的風格。
第一種風格是質樸的房間。
第二種風格是色彩繽紛的房間。
第三種風格是奇幻風格的房間。
并且,這三款作品分別由三位不同用戶生成。
值得注意的是,本次模型相比上一版,所生成的 3D 世界不僅更加逼真,空間感也更強。如下圖所示:圖中的上圖是本次模型生成的 3D 房間,地毯的質地和花紋就像來自于真實世界一樣;圖中的下圖是幾個月前的上一版模型生成的 3D 房子,其在逼真感和空間感上確實不如本次版本。

總的來說,本次模型通過提供構建 3D 世界的能力,可以提高用戶的生產力和創造力。目前,已有用戶將該模型生成的 3D 世界集成到游戲項目和互動內容項目中,未來等到該模型的 API 開放之后,用戶就可以實現無縫的 3D 世界集成。未來,李飛飛團隊將在 marble.worldlabs.ai 上推出 Marble 模型的有限訪問 Beta 預覽版,屆時用戶可以在上面查看和創建 3D 世界。

圖 | 李飛飛(右四)和其余三位創始人
據了解,含李飛飛在內該公司有四位創始人,他們都是世界知名的計算機視覺專家和圖形技術專家。除了李飛飛,其余三位聯合創始人分別是:
聯合創始人賈斯汀·約翰遜(Justin Johnson)曾經是李飛飛學生,目前他同時也任職于美國密歇根大學,此前曾擔任 Meta 的高級研究員,他是實時風格轉換技術的首創者,這一技術目前已被 Meta、Snap 和 Prisma 等公司使用。

圖 | 賈斯汀·約翰遜(Justin Johnson)(來源:資料圖)
聯合創始人克里斯托夫·拉斯納(Christoph Lassner)是可微分渲染器 Pulsar 的首創者,這一技術為 3D 高斯分布鋪平了道路。憑借自己在可擴展實時神經渲染領域的成果,他將神經輻射場(NeRF,Neural Radiance Fields)成功引入了虛擬現實和虛幻引擎。在此之前,他還曾在 Meta Reality Labs Research 和 Epic Games 工作。

圖 | 克里斯托夫·拉斯納(Christoph Lassner)(來源:資料圖)
聯合創始人本·米爾登霍爾(Ben Mildenhall)是神經輻射場的共同提出者之一,神經輻射場通過引入一種利用隱式神經表征,來以照片級的真實感來展示和渲染復雜場景,徹底改變了 3D 場景重建以及視圖合成。在和李飛飛創業之前,他曾擔任谷歌的高級研究科學家。

圖 | 本·米爾登霍爾(Ben Mildenhall)(來源:資料圖)
值得注意的是,該公司官網目前展示了將近 30 位團隊成員的信息,其中著名華人學者謝賽寧和吳佳俊擔任該公司的顧問,此外還有 10 余位華人技術人員。

圖 | 該公司官網展示的團隊成員信息
作為一位 AI 名人,李飛飛的創業吸引了眾多知名風投機構和業內大佬的支持。目前,其已獲得 A16Z、全球最大和最活躍的 VC 之一美國恩頤投資以及加拿大 AI 風投機構 Radical Ventures 的投資。在該公司的個人投資名單上,深度學習先驅杰夫·迪恩(Jeff Dean)、諾獎得主兼圖靈獎得主杰弗里·辛頓(Geoffrey Hinton)、領英聯合創始人里德·霍夫曼(Reid Hoffman)、OpenAI 創始成員之一的安德烈·卡帕西(Andrej Karpathy)等知名人士的名字赫然在列。此外,其還獲得了一些其他知名人士和知名機構的投資。

圖 | 李飛飛此次創業獲得眾多支持
對于創業使命,李飛飛團隊曾在一篇博文中表示,人類智能包含了多個方面,語言智能是其中的一種,語言智能讓人類能夠通過語言與他人進行溝通和聯系。但是,李飛飛團隊認為更具基礎性的是空間智能,正是空間智能讓人們能夠理解周圍的世界并與之互動。空間智能還能幫助人類將腦海中的圖像轉化為 3D 世界,從而能讓人類進行推理和發明。李飛飛團隊認為,盡管文生圖模型和文生視頻模型展示了 AI 在視覺領域的潛力,但是它們僅僅觸及了未來更多可能性的表面。要想超越當前這些模型的能力,就得打造具備空間智能的 AI,這種 AI 能夠建模世界,并能針對 3D 時空中的物體、位置和交互進行推理。正因此,李飛飛創辦了這家公司,并將其定位為是一家致力于構建大型世界模型的空間智能 AI 公司,旨在實現 3D 世界的生成、感知和交互,以便能將 AI 模型從 2D 像素平面提升至完整的 3D 世界,并能賦予這個 3D 世界以和人類自身一樣豐富的空間智能。李飛飛團隊認為,人類的空間智能進化了數千年之久,而在這個飛速發展的時代,將有希望在短期內賦予 AI 以空間智能。目前,她和團隊主要聚焦于生成不受限制的 3D 世界,即創建和編輯包含物理、語義和控制的虛擬空間,從而能為開發者、工程師和藝術工作者帶來更多創意。即使對于非專業用戶,該公司的產品也能讓他們想象并創造專屬于自己的世界。

圖 | 李飛飛 X 推文
2024 年,對于李飛飛來說這一個很有意義的年份。這一年,她休了長假;這一年,她出版了自己的自傳圖書,書的名字叫做《我看見的世界》,書中既介紹了她的個人成長史,也介紹了她眼中的 AI 發展史,“世界”既是書名中的一個詞語,也是她在書中濃墨重寫的一個篇章,她在書中寫道“相比現在充滿感官刺激和智力活動的世界,5.43 億年前的生命形態極其原始,近乎抽象,用蘇格拉底的話說,它們完全生活在一種‘未經審視’的狀態中。那個世界完全不被看到,海水深邃而本能粗淺”;這一年,她也創辦了 World Labs 這家公司,公司名字中同樣包含“世界(World)”這一詞語。
在她對于公司的發展構想上,既有前沿技術方面的考慮,也有哲學層面的斟酌,并賦予了這家公司以不同的氣質。當然,創業既要形而上也要形而下,正因此李飛飛團隊在本次新成果的博客文章里多次引用了用戶使用感想,想必也是為公司的進一步商業化做鋪墊,畢竟等著她“交作業”的投資人并不算少。