12月3日,由人工智能科學(xué)家李飛飛創(chuàng)立的科技公司W(wǎng)orld Labs推出了第一個項目,僅通過一張圖片,就能將圖中的場景三維化,生成的場景符合基本空間原理和物理定律,用戶可以在生成的空間內(nèi)移動,轉(zhuǎn)換視角。
他們稱之為大世界模型(Large World Model,LWM)。
李飛飛表示,大型世界模型只是 Worlds Labs公司的第一步,后面他們準(zhǔn)備把場景設(shè)計融入 AR、機器人甚至自動駕駛。
2天后,Google DeepMind發(fā)布Genie2,也展示了其可根據(jù)單圖生成無限3D世界,用于AI游戲及智能體訓(xùn)練,這就意味著它可以模擬虛擬世界,帶來了物體交互、復(fù)雜角色動畫、物理以及建模和預(yù)測其他智能體行為的潛力能力。
又5天后,在OpenAI發(fā)布會直播第3天,此前被稱為理解和模擬現(xiàn)實的基礎(chǔ)性AI技術(shù),邁出開發(fā)能夠與物理世界互動模型重要一步的Sora,推出了Sora Turbo,在模擬運動中的物理世界時,進(jìn)一步增強了它的可編輯能力。
2018年,世界模型的概念開始被廣泛提及,科學(xué)家指出,人類使用有限的感官感知世界,并基于這些感知建立起一個內(nèi)部的、簡化的世界模型,這個簡化的模型不僅幫助我們理解世界,更重要的,我們還會根據(jù)這個頭腦中的簡化世界決定預(yù)測未來走向。
而計算機領(lǐng)域的世界模型不僅包括觀察、狀態(tài)估計、動作建議和潛在變量建議四大核心元素,也采用了類似的思維模式,即在有限的、有選擇性的信息基礎(chǔ)上進(jìn)行有效的決策和預(yù)測。
世界模型將會如何改變這個世界,對于身處變革中的智能汽車又意味著什么?
智能座艙:從被動到主動預(yù)測和推薦
隨著越來越多產(chǎn)品升級為高通8295芯片,以及AR-HUD的普及,3D HMI正在成為智能座艙發(fā)展的新趨勢之一。
從3D車模到3D的場景構(gòu)建,到最終可能會演變的全3D架構(gòu),用戶正在以3D的方式探索整個座艙的場景,實現(xiàn)多視角切換。一鏡到底的場景變化,這種更加直接并具有連貫性的體驗,正在顛覆整個座艙交互的方式和信息呈現(xiàn)的方式。
而汽車座艙的另一個變化,就是AI在智能座艙的快速應(yīng)用和能力拓展,它正在重新構(gòu)建視覺、聽覺、語義等多模態(tài)融合的全新體驗。
當(dāng)前,雖然世界模型尚不成熟,但是它已經(jīng)預(yù)示了很多的可能。
汽車商業(yè)評論了解到,今天AI在座艙的能力大多還是基于AI算法的擬合,也就是依賴于人提供大量的算法和數(shù)據(jù)進(jìn)行訓(xùn)練,AI并沒有真正的理解座艙內(nèi)這個小世界的物理規(guī)律,也就無法主動預(yù)測用戶行為。
但如果世界模型能夠上車,打造成為座艙世界模型,就意味著車輛通過對外界環(huán)境的聲音、光線、溫度、位置、人體眼神、動作等信息的感知,能夠知道外面是在刮風(fēng),還是在下雨,人什么時候會熱,什么時候會冷。
它從一定概率的擬合轉(zhuǎn)向成一種精確的計算,把人當(dāng)做其中一個變量,在這個世界模型里去運行,主動調(diào)整車內(nèi)的溫度和濕度,包括聲音、光線等,不僅讓人保持最舒適、最愉悅、最高效的狀態(tài),也實現(xiàn)了在3D世界的沉浸。
它帶來的的最大的價值點就在于,座艙未來會從被動接受指令,到主動推薦和預(yù)測,并且會更加精準(zhǔn)。同時,將人、車、外部環(huán)境的眾多感知信息相融合,真正將座艙拓展為千人千面。
智能駕駛:更快、更省、更安全
2024年,自動駕駛端到端大模型成為了車企開始競逐的新焦點,它取代了此前用于感知、描述、預(yù)測以及規(guī)劃的多個模塊,讓自動駕駛以深度學(xué) 和人工智能為基礎(chǔ),通過統(tǒng)一的神經(jīng)網(wǎng)絡(luò)架構(gòu)實現(xiàn)環(huán)境感知到車輛控制的全流程自動化,更接近人類的真實駕駛。
而端到端大模型的潛力和能力挖掘,以及未來競爭的核心就在于誰的數(shù)據(jù)規(guī)模更大、誰的訓(xùn)練能力更強,誰的跨域融合應(yīng)用能力更出眾。
蔚來汽車曾在它的蔚來世界模型NWM的描述中表示,它能夠在0.1秒內(nèi)推演出216種車輛可能發(fā)生的軌跡,尋找最佳決策。然后在接下來的0.1秒內(nèi),根據(jù)外界的信息輸入,重復(fù)更新內(nèi)在時空的模型,再去預(yù)測216種可能性。以此循環(huán),跟隨駕駛軌跡持續(xù)預(yù)測,得到駕駛的最優(yōu)解。
因此,世界模型為自動駕駛訓(xùn)練構(gòu)建了更低成本、更快開發(fā)速度、以及復(fù)雜場景訓(xùn)練的可能。
首先,傳統(tǒng)的自動駕駛訓(xùn)練依賴大量的實際道路測試數(shù)據(jù)來構(gòu)建場景,但世界模型能夠通過學(xué) 和生成,構(gòu)建出更加豐富多樣的虛擬駕駛場景,包括一些罕見的、難以在實際中頻繁遇到的特殊場景和邊緣情況,如極端天氣條件下的駕駛場景、復(fù)雜交通流中的特殊事件等,為自動駕駛模型提供更全面的訓(xùn)練數(shù)據(jù),從而提升其在各種場景下的應(yīng)對能力。
其次,世界模型增強態(tài)勢感知與決策能力。
世界模型可以模擬真實世界環(huán)境的動態(tài)變化,理解各元素之間的關(guān)聯(lián)和因果關(guān)系,提前預(yù)判整個場景的演變。
第三,世界模型可以提高訓(xùn)練效率與降低成本。
基于世界模型的仿真平臺相較于傳統(tǒng)的單一道路測試,能夠更加精準(zhǔn)地滿足日益增長的模擬需求,大幅削減重復(fù)采集和分析工作,按照需求快速生成特定場景,有效提高算法的精準(zhǔn)度和迭代效率,從而縮短自動駕駛技術(shù)的研發(fā)周期,降低研發(fā)成本,加速其商業(yè)化應(yīng)用的進(jìn)程。
雖然,當(dāng)下的世界模型尚不成熟,但對于汽車真正成為人們的智能出行伴侶或者移動智能機器人的美好想象來說,越來越多科技公司的技術(shù)推動和演進(jìn),讓這個夢想又向前了一步。