從感知到決策，Tesla、Nvidia 都在自駕車用Gen AI，能更安全上路嗎？

By張維君

Published2024-07-12

下一代AV 2.0自駕車能否真正擁有人類般的理解能力，在全新未知的場景也能做出正確快速且安全的判斷？全球國際車廠與科技大廠都在努力，而生成式人工智慧（Gen AI）及大語言模型（LLM）無疑是目前產業鎖定的主要方向之一。

生成式AI及LLM的微調與應用正在各個垂直市場蓬勃發展中，尤其是自駕車領域。一直以來，自駕車系統因為偏重的技術不同而存在多種派別，各派也各自有不同的擁護者。然而，自前年Gen AI橫空出世，眾家不同程度的採用Gen AI並訓練LLM，甚至以生成式AI為主要自駕技術的新創公司如Wayve，都因創新下一代AV 2.0技術而獲得科技大廠的注資。

自駕車之所以能感知路況並正確行駛，主要依靠以下各種技術：1.攝影機感測器、雷達、光達等多種感知技術：用以獲取周圍環境訊息。2.算力：自駕車本身需部署算力資源以提供快速回應。3.軟體、深度學習技術及大規模資料：用以訓練模型及處理複雜的駕駛情境。4.探測車：以此發展精確到公分級的高精地圖。

目前自駕車系統廠商多半不同程度的較的採用上述某幾種技術。例如，已在舊金山等城市上路的無人計程車Waymo以融合感知為主；特斯拉（Tesla）與輝達（Nvidia）則偏重以圖像為基礎；以色列自駕技術廠商Mobileye則是混合採用。

然而，在生成式AI技術及各種大語言模型陸續發表後，所有廠商皆將其運用在產品當中，尤其是Nvidia從感知到決策廣泛應用LLM，而走純視覺技術的特斯拉也大量使用Gen AI來強化視覺感知能力，Waymo與Mobileye也都用改善其感知系統。

L&T Technology Services（LTTS）白皮書提到，對OEM廠來說，至少有五個以上的應用，是Gen AI與LLM能發揮極大效益之處，其中之一是運用在自駕（AD）/先進駕駛輔助系統（ADAS）的部分。當出現感測器損壞、影像品質太差、光線不足、惡劣天氣或一些極端情形時，透過電腦視覺基礎模型Florence經過微調後，可以大幅改善上述的影像品質結果。此外，像是圖像分割模型（Segment Anything Models）以及使用CLIP或Florence用於圖像分類、分割、生成等都有不錯的效果。

LTTS也提到，這些模型在實現下一級AD/ADAS所需的大多數任務中，都比傳統的密集卷積神經網路（CNN）/生成對抗網路（GAN）模型更有優勢，也難怪輝達、軟銀都看好研發這些下一代自駕技術的AV 2.0新創公司，包括研發無人卡車技術的Waabi及Stack AV，以及利用Nvidia GPU開發自駕技術的Wayve等，分別自這兩家大咖手中募得2億至10億美金不等的資金。

儘管這些AV 2.0的自駕技術比起AV 1.0，只需要較少的資料量及算力資源來訓練模型，而且可以在虛擬的模擬器中進行測試，不像過去需要花時間累積大量的行車測試哩程並搜集資料再來寫演算法。但是要成功發展市場，關鍵還是消除消費者對於這些自駕車是否安全的疑慮，一如Waymo已經到達Level 4等級，但乘客要將性命完全交付在機器手中，仍然極大程度考驗信任。

美國卡內基美隆大學教授也是自駕車安全專家Phillip Koopman在受訪時曾表示，這些以機器學習為基礎的AV 2.0自駕系統，雖然能夠快速學習駕駛技術，但其本質上仍然是難以理解的「黑箱」，而這樣的系統很難去驗證安全性。

今日，用Gen AI來產生行銷文案、撰寫程式或是摘要會議重點，大部分時間它可以表現很好，有時出現錯誤會發生不可回復的傷害，但若自駕車出現幻覺（錯誤），傷及的是人命恐難以被接受？是以AV 2.0也許還需要更多時間與測試來驗證，才能取得消費者的信賴。