6月15日,在第十六屆中國(guó)汽車藍(lán)皮書(shū)論壇智能座艙專場(chǎng),同濟(jì)大學(xué)汽車與設(shè)計(jì)學(xué)院雙聘教授、人車關(guān)系實(shí)驗(yàn)室創(chuàng)始人馬鈞以“從HMI到HAI,智能座艙變革機(jī)遇”為題發(fā)表演講。
他表示,“人智交互是智能座艙下半場(chǎng)卷的方向,也就是個(gè)性思維的愉悅,意義如何在交互當(dāng)中得到體現(xiàn),如何突破瓶頸,做一個(gè)可進(jìn)化的產(chǎn)品,這是我們這個(gè)行業(yè)要做的事情。”
馬鈞還分享了人智交互的三大突破點(diǎn):一是功能層,從偽情境到情境;二是內(nèi)容層,從偽個(gè)性化到個(gè)性化;三是表現(xiàn)層,從單模態(tài)到多模態(tài)。此外,根據(jù)P-CAFE智能座艙大模型評(píng)價(jià)體系,馬鈞還分享了他在車輛實(shí)際評(píng)測(cè)過(guò)程中的一些發(fā)現(xiàn)。
以下是馬鈞的演講實(shí)錄:
感謝大家,今天又站在這兒跟大家分享整個(gè)去年的一些思考,包括一些理論、方法和新概念。智慧也好,智能也好,確實(shí)這幾年如火如荼。今天我剛剛從機(jī)場(chǎng)下來(lái),看到機(jī)場(chǎng)的廣告牌變成叫智慧月子,我在那邊站了5分鐘,我想看那張圖上面智慧在哪兒?現(xiàn)在大家都在談智能、智慧,但真正跟客戶痛點(diǎn)結(jié)合的智慧并不多,所以這也是汽車行業(yè)的一個(gè)方向。
我相信無(wú)論是英偉達(dá)也好、蘋果也好,我不知道多少人最近追股票追到了?我覺(jué)得能夠買的是英雄,5月份到現(xiàn)在短短的一個(gè)月又漲了快一倍,這個(gè)有沒(méi)有洞察力就是我們這個(gè)行業(yè)要看的事情。
今天帶來(lái)的第一個(gè)概念題目叫智能座艙變革的機(jī)遇。
我們站在非常好的藍(lán)海的前沿,我們談到智能座艙是HMI是人機(jī)交互,現(xiàn)在我們談的不是人機(jī)交互而是叫人智交互,所以什么是人智交互,就是今天演講的一個(gè)主題。
圖上看到那么多的字,無(wú)論是同質(zhì)化、新設(shè)計(jì)理念、健康、個(gè)性化生態(tài),每個(gè)單詞如果拿出來(lái),我相信汽車行業(yè)所有的老總都能跟你講一天,但是里面的優(yōu)先級(jí)怎么辦?哪個(gè)才是我們真正的最大問(wèn)題或者這個(gè)行業(yè)的新賽道、新藍(lán)海,這是我們需要討論的。
在最近跟主機(jī)廠很多的同事在討論的過(guò)程當(dāng)中,都在問(wèn)“馬老師我們已經(jīng)卷到現(xiàn)在,錢也賺不了了,今年會(huì)卷什么?或者下半場(chǎng)我們卷什么”?我告訴他們,“你卷也得卷,不卷也得卷,一定卷智能”。
所以在講這個(gè)智能之前,我在前兩年的論壇當(dāng)中經(jīng)常用用戶體驗(yàn)的金字塔,但是我在做的過(guò)程當(dāng)中發(fā)現(xiàn)僅僅是用戶金字塔,從本能、行為一直到反思層的解釋,最后到產(chǎn)品的本身落地還不強(qiáng),所以我們現(xiàn)在借用的是用Stephen P Anderson的這套情感化交互設(shè)計(jì),把它分成了6層。
從第一層的可靠到可用,可靠是里面有很多坑,一直到最后沒(méi)有坑,怎么樣走直線等等。這個(gè)是Anderson把產(chǎn)品進(jìn)化的成熟度在做評(píng)價(jià)體系的時(shí)候當(dāng)時(shí)拿出的一套方法論,我們借鑒了一下,我覺(jué)得特別有用。
我們現(xiàn)在的汽車行業(yè)到底處在哪個(gè)階段?我們恰恰是處在面臨著愉悅和易用的前沿,這恰恰是我們現(xiàn)在的前沿。所以當(dāng)我們談到傳統(tǒng)人機(jī)交互的HMI更多的核心是人去學(xué) 產(chǎn)品,所以我們經(jīng)常會(huì)談到學(xué) 成本、學(xué) 周期等等,但實(shí)際上到了現(xiàn)在這個(gè)時(shí)代,到了智能的時(shí)代,我們應(yīng)該去談的不是我們?nèi)W(xué) 產(chǎn)品,而是產(chǎn)品來(lái)適應(yīng)人,所以這就是我們現(xiàn)在談人智交互的新概念叫Human intelligence interaction,所以人智交互是我們下半場(chǎng)卷的方向。也就是個(gè)性思維的愉悅、意義如何在交互當(dāng)中得到體現(xiàn),突破瓶頸,做一個(gè)可進(jìn)化的產(chǎn)品,就是我們這個(gè)行業(yè)要做的事情。
從用戶體驗(yàn)升級(jí)的角度來(lái)思考,我們從最早關(guān)注功能到后來(lái)關(guān)注體驗(yàn),傳統(tǒng)的體驗(yàn)定義我們一直講的是“靜態(tài)”的體驗(yàn),這個(gè)“靜態(tài)”是引號(hào)的,很多人談車是出行的工具,現(xiàn)在在下半場(chǎng)的時(shí)代,我們希望能夠跟他們談的是賦予這種體驗(yàn)的生命體,所以我們把生命和智能寫在AI加智能座艙的一個(gè)方向。
談好一個(gè)理念,我們?cè)趺慈ネ黄扑??作為一個(gè)主機(jī)廠或者作為一個(gè)Tier1的同事們,我們?cè)趺磥?lái)定義我們自己的產(chǎn)品,我們的瓶頸到底在哪里?左邊可以看一下Garrett用戶體驗(yàn)的五層模型,也是用戶體驗(yàn)開(kāi)始。我們認(rèn)為HAI也就是人智交互會(huì)有三個(gè)最重要的突破點(diǎn):
第一個(gè),底層的范圍層里會(huì)從偽情景到真情景。當(dāng)我們?cè)谡劦綀?chǎng)景,就已經(jīng)談了好幾年,都是我們預(yù)設(shè)的場(chǎng)景,但是什么是我們真正的真場(chǎng)景?是我們第一個(gè)突破點(diǎn),突破AI。
第二個(gè),是框架/結(jié)構(gòu)層的偽個(gè)性化,偽個(gè)性化可以翻譯成另外一個(gè)預(yù)設(shè),叫做預(yù)設(shè)的個(gè)性化。但是如何真正做到用戶的個(gè)性化,是我們AI可以做的第二個(gè)點(diǎn)。
第三個(gè),如何從單模態(tài)交互到多模態(tài)交互,他們之間怎么協(xié)同?用AI可以幫助解決。
我們分別來(lái)看一下,什么是偽情境?偽情境是基于情緒化的情境,所以經(jīng)常有很多主機(jī)廠說(shuō)我做了大量的場(chǎng)景,我做了上千個(gè)場(chǎng)景,但是真正用戶要的是什么?我不能什么場(chǎng)景都做,所以我們現(xiàn)在也希望通過(guò)AI,幫助我們的企業(yè)來(lái)做減法。所以真情景是基于用戶深度理解的真情景,也就是說(shuō)我們主動(dòng)提示。
我們剛才舉了一個(gè)下單的例子,主動(dòng)提示是否需要催單?當(dāng)你現(xiàn)在來(lái)說(shuō)惡劣的天氣配送延遲請(qǐng)諒解,或者到最后的未來(lái)我們希望是補(bǔ)償優(yōu)惠券,安撫用戶的情緒。機(jī)器能夠來(lái)告訴我們,我們的方向。所以真情景是基于深度理解和時(shí)間和空間是有上下文概念的,所以我們強(qiáng)調(diào)的情境一定是可以溯源,可以被預(yù)測(cè),這是第一個(gè)突破層。
第二個(gè)是偽個(gè)性到真?zhèn)€性。視頻里面是一個(gè)NPC的角色,他的回答是用生成式AIGC根據(jù)玩家的語(yǔ)音輸入而實(shí)時(shí)生成的,而不是每個(gè)玩家最后都是在聽(tīng)一樣的反饋。所以這個(gè)時(shí)代,才是真?zhèn)€性化的時(shí)代。所以下面看到的如果我們?cè)谧鲇脩趔w驗(yàn)設(shè)計(jì)的時(shí)候,左下角的預(yù)設(shè)定的定義內(nèi)容可以通過(guò)AI來(lái)幫我們實(shí)現(xiàn)設(shè)計(jì)體驗(yàn)的目標(biāo),自動(dòng)生成體驗(yàn)流程和邏輯,這個(gè)是我們認(rèn)為AI可以做的第二個(gè)突破口。
第三個(gè)突破口就是從單模態(tài)到多模態(tài)。大家知道隨著我們的科學(xué)技術(shù)的蓬勃發(fā)展,多模態(tài)現(xiàn)在也是如火如荼。CASE里一句話的多指令也好到接下來(lái)的智能助手的語(yǔ)音交互也好,到底什么是我們多模態(tài),適合這個(gè)場(chǎng)景的多模態(tài)?恰恰是我們通過(guò)AI能夠來(lái)執(zhí)行的。我們自己在做測(cè)試的時(shí)候經(jīng)常會(huì)碰到像一句話多指令的時(shí)候會(huì)談到,開(kāi)窗,我要去哪里,還是有點(diǎn)熱。機(jī)器不可以馬上就給我一個(gè)反饋,但是從單模態(tài)到多模態(tài)可以來(lái)幫我們解決這個(gè)問(wèn)題。
最后來(lái)總結(jié)一下前半段。所以我們認(rèn)為HAI人智交互的設(shè)計(jì)原則就應(yīng)該是3C。第一個(gè)是Complementary,就是單個(gè)場(chǎng)景的多模態(tài)交互協(xié)同,叫互補(bǔ)性;第二個(gè)C是Continuous,是從多個(gè)情景之間的跨域和時(shí)空的協(xié)同,它有時(shí)間、有空間的協(xié)同。第三個(gè)C是Consistent是一致性,所有場(chǎng)景之間個(gè)性化的體驗(yàn)一定需要一致性。現(xiàn)在目前大部分車載的大模型目前都是趣味性的,但是車書(shū)又是嚴(yán)肅性,所以這里面的一致性是值得探討的,到底要還是不要。
我們團(tuán)隊(duì)去年的思考針對(duì)剛才講的HAI這么多的理論也好,3C的設(shè)計(jì)原則也好,我們是如何來(lái)設(shè)計(jì)一個(gè)新的體驗(yàn)?zāi)兀课覀冞@里帶來(lái)了我們的新的思考和新產(chǎn)品,我們把它定義叫P-CAFE。我們從思考的能力,從AI角度入手。第二個(gè)我們討論的是像人類一樣互動(dòng)的基礎(chǔ)和獨(dú)立完成工作的自動(dòng)化流程,這三個(gè)作為我們的輸入。我們參考的李飛飛老師的“多模態(tài)全能代理人范式”,大家知道目前這類的文章,尤其是跨學(xué)科的特別、特別少,能夠拿得出作為標(biāo)準(zhǔn)的文章也不是特別多,我們現(xiàn)在借鑒的是李飛飛老師的這套流程。
右邊看到的就是我們這套P-CAFE的整個(gè)評(píng)價(jià)體系,我們從感知層開(kāi)始入手,先要感知,第二個(gè)是從認(rèn)知建模型,第三個(gè)是到用戶的體驗(yàn),設(shè)計(jì)變成行動(dòng),第四個(gè)一定是用戶要有反饋。所以通過(guò)前面的PCAF才能達(dá)到整個(gè)產(chǎn)品和用戶體驗(yàn)流程的進(jìn)化。所以我們基于主觀和客觀的評(píng)測(cè)體系以及我們有自己的實(shí)車評(píng)測(cè),加上我們自己的人機(jī)實(shí)驗(yàn)室,針對(duì)P-CAFE做出5項(xiàng)一級(jí)目錄、15項(xiàng)二級(jí)目錄和63項(xiàng)的三級(jí)目錄。今年正在舉行評(píng)測(cè),我們現(xiàn)在今年一共會(huì)評(píng)20款車大模型的車,目前已經(jīng)評(píng)了6款。在評(píng)測(cè)的過(guò)程當(dāng)中,有一些很有趣的發(fā)現(xiàn),可以跟大家進(jìn)行分享。
第一個(gè)我們發(fā)現(xiàn)人智交互給座艙注入了靈魂,靈魂指的就是個(gè)性化。以空調(diào)為例,大家看到第一個(gè)車型,我們測(cè)的基本上是以新勢(shì)力造車,我們現(xiàn)在目前正在測(cè)所有的新勢(shì)力造車,特別有意思。新勢(shì)力造車,某款車型A它是一個(gè)貼心暖男的說(shuō)法,空調(diào)吹得冷,空調(diào)調(diào)高了2度。第二個(gè)是理工直男型,他說(shuō)你嘗試著把空調(diào)的溫度調(diào)高一點(diǎn)或者披件衣服等。第三個(gè)是努力少年型,我還不太會(huì),但是我會(huì)加緊學(xué) ,所以個(gè)性化一定會(huì)通過(guò)AI或者AIGC將靈魂注入到我們整個(gè)用戶體驗(yàn)的設(shè)計(jì)當(dāng)中。
第二個(gè)測(cè)評(píng)發(fā)現(xiàn),車載對(duì)話響應(yīng)的速度和最新的大模型技術(shù)目前還有一些差距,包括像GPT4-o平均響應(yīng)速度是320ms,最快有200多ms,但是在目前我們測(cè)的新勢(shì)力的很多的Agent平均的響應(yīng)速度是2046ms,2s多,相對(duì)來(lái)說(shuō)還是比較慢的,所以我們期待今年會(huì)有更多好的體現(xiàn)。
第三個(gè)當(dāng)人智交互需要協(xié)同考慮多模態(tài)的協(xié)同,我們一直講,我個(gè)人一直認(rèn)為HUD一定會(huì)替代一部分的儀表的功能。我們?nèi)绾螐牧炕慕嵌葋?lái)告訴我們的整車廠你們的配置率是不夠的,用戶很喜歡HUD,為什么不呢?我們用這張圖就很能來(lái)解釋。左邊這張圖大家看到在簡(jiǎn)單的車控任務(wù),駕駛者更關(guān)注儀表盤的HUD,剎車的反應(yīng)速度很快。大家在剎車反映的時(shí)候基本上是不看屏幕,HUD是13%,而路面是87%,很能夠詮釋HUD能替代部分屏幕的功能。
右邊當(dāng)一個(gè)復(fù)雜大模型的任務(wù),我們被去設(shè)定的時(shí)候,大家會(huì)看到道路是78%,HUD是12%,屏幕是10%,在復(fù)雜導(dǎo)航過(guò)程中不好的人智交互的設(shè)計(jì)會(huì)給用戶造成很多的分心和腦負(fù)荷,所以分心也是在人智交互當(dāng)中用多模態(tài)可以來(lái)解決的問(wèn)題。
還有一個(gè)測(cè)評(píng)一個(gè)趨勢(shì)從關(guān)鍵詞的車控到意圖車控是現(xiàn)在的一個(gè)趨勢(shì)。什么是意圖車控?左邊大家看到的某些車型說(shuō)今天公司沒(méi)開(kāi)空調(diào),熱死,全部空調(diào)已打開(kāi),空調(diào)已調(diào)整為吹臉模式。這些都是實(shí)際的案例,是我們題庫(kù)里的案例。右邊的某一個(gè)車型,上面我們沒(méi)有給它點(diǎn)贊,因?yàn)樗岢龅氖且粋€(gè)問(wèn)號(hào),它說(shuō)我感覺(jué)有點(diǎn)悶,機(jī)器跟我說(shuō)我?guī)湍愦蜷_(kāi)空調(diào)透氣還是再打開(kāi)一點(diǎn)窗呢?我它給你是一個(gè)問(wèn)題,希望跟你有互動(dòng)。右下角正確識(shí)別了用戶的意圖,空調(diào)溫度調(diào)高了等等,所以在這種直覺(jué)性的用戶體驗(yàn)的時(shí)候,我們需要的是一個(gè)意圖車控而不是關(guān)鍵詞車控。
我們現(xiàn)在P-CAFE平均測(cè)評(píng)情況總覽,覆蓋20個(gè)車型,已完成6款,總體平均分是2.978分,離3分正好差那么一點(diǎn)點(diǎn),我們正在處于及格的邊緣。我們期待今年會(huì)有一些突破。左下角看到的是一級(jí)目錄和二級(jí)目錄的整個(gè)打分表。右邊是小的總結(jié),總體體驗(yàn)仍處于功能導(dǎo)向階段,意圖車控還不是特別的流行,拼湊上車還是深度優(yōu)化,感知非常明顯。
包括現(xiàn)在還有AI幻覺(jué)問(wèn)題,光說(shuō)不做,無(wú)中生有,有時(shí)候機(jī)器根本就不理解你,它會(huì)自己按照自己的想法給你很多的題庫(kù)。第四個(gè)相對(duì)來(lái)說(shuō)Agent所有記憶和學(xué) 能力比較弱,個(gè)性化任重道遠(yuǎn)。
最后一頁(yè)跟大家分享的是我們現(xiàn)在整個(gè)用戶智能體驗(yàn)實(shí)驗(yàn)室跨學(xué)科的研究布局,我們也在做一些事情,也期待在座各位零部件也好、整車廠同事也好能夠加入我們一起來(lái)做事情。
第一個(gè)我們研究的是人,汽車人因工程機(jī)理與評(píng)價(jià)模型研究。第二個(gè)研究的是智,汽車智能座艙 Agent研究。第三個(gè)研究的是交互,叫汽車人智協(xié)同融合機(jī)理研究。
我們也出很多的論文,最近我們剛出了人工智能的頂刊,最新論文《如何基于大語(yǔ)言模型改進(jìn)座艙主動(dòng)交互》已被IJCAI 2024接收(人工智能領(lǐng)域頂級(jí)國(guó)際會(huì)議)。
第二個(gè)我們?cè)诮衲昴甑酌髂昴瓿踔杏⑽陌鏁?huì)跟德國(guó)出版社共同出一本《人智交互HAI》的書(shū),所以這里會(huì)用到大量的案例,所以在座各位主機(jī)廠的同事如果有好的案例請(qǐng)直接提供給我們,這本書(shū)會(huì)在全球出版。
同時(shí)我們也在負(fù)責(zé)AI技術(shù)路線圖,也做大模型評(píng)測(cè)的團(tuán)體標(biāo)準(zhǔn),今年年底10月底、11月初把20款車測(cè)試結(jié)果向整個(gè)行業(yè)宣布或者公布,也期待各位能夠共同的來(lái)參與我們,參與我們的“華輿獎(jiǎng)”,我的演講到此結(jié)束,謝謝大家!