界面新聞記者 | 伍洋宇
ChatGPT出現(xiàn)之后,大模型在人工智能領域的地位進一步提升。眾多AI應用方向都開始尋求與大模型的結合,以爭取更高效率的產(chǎn)品落地進程,自動駕駛也不例外。
7月6日到8日,2023年世界人工智能大會在上海舉辦。在“AI與新一代車載智能感知融合創(chuàng)新論壇”上,大模型成為學界與業(yè)界人士的共同話題。
(資料圖)
清華大學計算機系教授、清華大學人工智能研究院視覺智能研究中心主任鄧志東,從技術底層視角提出了大模型的“云-邊-端”自動駕駛部署框架——以“ChatGPT/GPT”為云端,以垂域BEV(Bird"s-eye-view,鳥瞰圖視角)多模態(tài)GPT為邊緣端,以局部自主及傳感執(zhí)行為移動端。其中,云端理解為具備知識理解、預測以及決策能力的“大腦”,邊緣端理解為進行動態(tài)感知與理解的視覺智能。
鄧志東認為,整個過程中最大的挑戰(zhàn)在于如何構建垂域多模態(tài)GPT。
對此,他表示可以將自動駕駛算法設定為一系列任務,包括感知、預測、決策/規(guī)控三大主任務,以及環(huán)境監(jiān)測、在線建圖、多軌跡預測、占用柵格預測等一級任務(順序模塊)。而解決這些任務可以通過三條路徑:
第一條路徑是設定多任務,進行聯(lián)合預訓練,但這條路徑如果用弱人工智能的方式來操作,比如沒有通過語言建模將這一系列的數(shù)據(jù)模塊串聯(lián)起來,就可能缺乏語言智能;
第二條路徑是構建自己的多模態(tài)通用大模型?!暗俏矣X得這個事情挑戰(zhàn)很大,因為我想我們中國現(xiàn)在最大的任務是怎么追趕上ChatGPT,做到我們自己的GPT 4.0?!彼f,“這個就已經(jīng)很了不起了,但這也是比較困難的,目標比較遠大?!?/p>
第三條路徑是利用已有的ChatGPT/GPT 4.0構建自己的垂域多模態(tài)GPT。鄧志東表示,可以利用這種“還不是非常完美”的通用語言模型作為“骨頭”,將其能力視為“云”,通過對通用語言模型進行微調(知識遷移)在云上做一個操作系統(tǒng)——這也是他認為比較現(xiàn)實的一條路。
鄧志東認為后兩條路徑都利用了大模型和人類共有的語言智能,也正是這種語言智能可以將順序模塊進行一體化串聯(lián)。“沒有多模態(tài)的語言智能就沒有靈魂?!彼f。同時,他例舉了大模型語言智能能夠貫穿的各個環(huán)節(jié),包括從多攝像頭多幀輸入到向量空間的3D感知等等。
此外,鄧志東還例舉了大模型將為自動駕駛帶來的其他方面影響,包括基于大模型的人車語音自然交互和遠程安全接管預測,以及自動駕駛生成式數(shù)據(jù)閉環(huán)和云邊端AI算力需求。
“總之,對跨界的自動駕駛來說,我們應該更多去關注大模型的使用。”鄧志東表示,“在進化史上,語言智能是人類與動物之間的根本區(qū)別,因此機器模擬并利用語言智能,就可以獲得與人類觀察與思維一致的感知、預測、決策及規(guī)控能力。與此同時,我們也可以利用人類駕駛經(jīng)驗去完成相應的行為對齊及反饋矯正。”
事實上,在ChatGPT爆火之前,大模型已經(jīng)開始影響自動駕駛領域。
覺非科技創(chuàng)始人兼CEO李東旻表示,智能駕駛解決方案的第一階段是各個小模型的堆疊,到第二階段,以特斯拉為企業(yè)代表的大模型+大數(shù)據(jù)方案開始受到重視——特斯拉在自己的AI DAY上發(fā)布了transformer+BEV方案,并帶動了行業(yè)趨勢。
“當時所有人都在談論BEV+transformer,行業(yè)從來沒有如此達成共識過?!彼f。
不過,站在企業(yè)視角,李東旻給出了非常切實的想法和建議?!按竽P偷穆涞胤浅7浅ky,大家真的不要低估這件事的技術難度和資金難度。”他展示了參考特斯拉做的數(shù)據(jù)對比,得到的結論是“大算力是基礎,大數(shù)據(jù)是前提”。
“如果一臺車輛不能收集大量數(shù)據(jù),或者說你靠花很多錢才能收集大數(shù)據(jù),(那就)別做了,踏踏實實把城市NOA/NGP功能做好,其實也是挺好的一件事?!彼岬剑龃竽P偷拈g接投入比小模型大上百倍。這里的間接投入指買云服務、買算力、買數(shù)據(jù)、買標注等難以像硬件成本一樣清晰的費用。
“激光雷達一張照片要200元,但各位,訓練大模型至少是一億幀起步,沒有一億幀你連玩牌的資格都沒有?!崩顤|旻說,“所以大家不要低估這件事情——大模型的確是未來,也一定值得我們所有人投入,但是我們要懷著一個謙卑的心態(tài)來迎接它和應對它?!?/p>
廣告
X 關閉
廣告
X 關閉