2月24日,清華大學智能產業研究院(AIR)聯合北京市高級別自動駕駛示范區(以下簡稱“示范區”)、北京車網科技發展有限公司、百度Apollo、北京智源人工智能研究院共同發布了全球首個基于真實場景的車路協同自動駕駛數據集——DAIR-V2X,向境內用戶提供下載使用。車路協同數據集的發布,必將推動我國車路協同技術路線的快速發展,加速自動駕駛商業化落地步伐。
DAIR-V2X亮點何在
依托科研院校高水平的科研能力、企業廣泛的產業落地經驗以及示范區豐厚的應用土壤,DAIR-V2X得以形成。作為全球首個應用于車路協同自動駕駛研究的數據集,DAIR-V2X全部數據均采集自真實場景,同時包含2D&3D標注。此外,數據來源包括了車端攝像頭、車端LiDAR、路端攝像頭和路端LiDAR等傳感器,傳感器類型豐富。
據悉,DAIR-V2X數據集來自示范區10公里真實城市道路、10公里高速公路,以及28個路口范圍,總計72890幀圖像數據和728904幀點云數據,囊括了協同數據集、路端數據集和車端數據集,涉及晴天、雨天、霧天、白天和夜晚、城市道路與高速公路等多種豐富場景。據示范區工作辦公室常務副主任捷菲介紹,示范區現已完成1.0階段的建設工作,2.0階段的建設已進入設備聯調聯試和功能優化階段,預計在經開區核心區60平方公里、共計305個路口實現智能網聯道路基礎設施全覆蓋。另外,示范區3.0階段的建設也將于年內開啟。隨著示范區智能網聯建設的進一步完善,數據集必將不斷豐富。
值得一提的是,與僅覆蓋單車端或單路端的數據集相比,DAIR-V2X克服了以往車路協同在同一時空下檢測但數據不同步的問題,提出車路協同多模態融合方法,并給出檢測指標,以便更好地服務車路協同算法研究與評估。基于該數據集,研究者可開展單車端3D檢測任務、單路端3D檢測任務、車路協同感知3D檢測等相關研究。此外,數據集還通過半自動自學習車路協同3D融合標注方法等創新,有效減少數據集構建成本。
百度方面表示,作為該數據集建設的技術支持方,百度后續將逐步支持發布便于用戶上手和基準復現的相關工具和代碼,并開展數據集相關使用培訓,以更好地支持車路協同相關研究的進行。目前,DAIR-V2X已納入到智源平臺上,后續將依托智源社區等智源學術生態網絡,面向產學研用各方加快數據集的開放、推廣及應用。
助力車路協同發展
實際上,自動駕駛數據集開源早已不足為奇,Waymo、Aptiv、Argo AI等自動駕駛公司均宣布開放自動駕駛數據集。以Waymo為例,其在2019年宣布開源自動駕駛數據庫,公開的數據集由Waymo自駕汽車在各種條件下采集的高度標注數據組成,包括了覆蓋多個地點的1000個駕駛段上收集的數據。作為國內自動駕駛行業領頭羊的百度,則在2018年便開放了其自動駕駛數據Apollo Scape,包括了感知、仿真場景、路網數據等數十萬幀逐像素語義分割標注的高分辨率圖像數據,以及與其對應的逐像素語義標注、稠密點云、立體圖像、立體全景圖像。不過,與上述自動駕駛數據集不同的是,此次發布的DAIR-V2X是全球首個車路協同數據集。
實際上,早在2020年,國家發展與改革委員會等部委便在《智能汽車創新發展戰略》中明確指出,中國特色自動駕駛需采取“單車智能+車路協同”路線。百度創始人、董事長李彥宏表示,受限于安全性、運行設計域限制和經濟性等方面的挑戰,單車智能自動駕駛的規模商業化落地仍具有很大挑戰。相比較而言,車路協同系統則在成本、安全、效率和商業落地等方面具有不可比擬的優勢,將大大加快自動駕駛的商業落地。
然而,正所謂“巧婦難為無米之炊”,相關數據集的匱乏極大限制了各界實現數據驅動車路協同的目標。正因此,DAIR-V2X的出現顯得頗為關鍵。清華大學智能產業研究院(AIR)院長張亞勤指出,借助示范區真實的數據采集、多樣的場景覆蓋、海量的數據樣本,DAIR-V2X能夠為高校、科研院所、產業用戶進行技術研發提供更好地數據支撐,也能夠滿足企業在產品開發中的切實需求。
除在學術研究以及產品落地上的巨大作用,DAIR-V2X的發布同樣能夠對行業的規范化、標準化有所助益。北京經濟技術開發區管委會副主任、北京市高級別自動駕駛示范區工作辦公室主任孔磊表示,基于DAIR-V2X數據集,未來將及時利用數據轉化制定一批車路協同數據標準,推動行業數據要素、接口、格式等標準統一,為行業發展提供參考和指導。
不過,在中科院創業投資管理有限公司研究總監邵元駿看來,DAIR-V2X現在仍處于建設當中,能夠發揮多大作用還有待觀察。就目前而言,宣傳作用大于實際效用。“應該會有車企采用這一平臺的數據進行研究,但是否會使用就不一定了。”邵元駿告訴記者,目前最困擾車企的是數據如何用的問題。當前很多城市在車路協同基礎設施建設上仍沒有跟進,但車路協同必須要有“智慧的路”才能實現。這一矛盾就導致車企對于車路協同功能持困惑、糾結的態度。“車企如果想在新車型中加入車路協同功能,不僅要投入大量成本,還必須面對有些地區用不了這一功能的現實問題,這反倒得不償失。”他說。
借鑒還是自建成難題
軟件定義汽車時代的到來,使得“開源”這種軟件開發模式開始在汽車行業流行起來。中國工程院院士倪光南曾表示,開源已成為全球軟件技術和產業創新的主導模式,是加速基礎軟件創新、加強社會協作的高效方式。但共建、共享、共治的模式無疑對習慣了相對封閉研發環境的傳統汽車體系是一大挑戰。
一位業內人士告訴記者,自動駕駛數據開源實際上可以有效降低自動駕駛技術算法優化的成本,避免資金的重復使用。“就像是有人造好了車輪,有了車輪,車就能跑了。實際上車輪并不是高質量的技術,大家沒必要重復研發。對應到自動駕駛上,企業、高校或科研機構完全可以在一個數據集的基礎上增加自己特定的場景數據。”他說。另一方面,開源數據能夠重構市場標準,所有人都基于一套數據集進行個性化開發,避免因標準不一致導致的資源浪費。然而,有價值的技術、數據是否愿意公開,公開信息和技術的好處能否覆蓋企業投入成本,使用他人公開的技術、數據是否會受制于人,種種顧慮讓汽車企業們不敢放心投入“開源”懷抱。
北方工業大學汽車產業研究中心研究員張翔告訴記者,具體到自動駕駛領域,自動駕駛數據和代碼共享的方式目前仍非主流,大多數車企更愿意選擇投資或深度綁定一家自動駕駛公司來開發自己的系統。如通用汽車3億美元入股中國自動駕駛初創公司Momenta,針對中國車型研發自動駕駛技術;又如萬眾矚目的小米汽車,官宣后不久便投資了縱目科技。若采用其他企業的開源數據,在一定程度上相當于默認了這一企業所構建的數據標準,習慣了“自家獨大”的車企自然不愿意面對這種話語權被削弱的場面。
“目前國家在自動駕駛數據集這方面還沒有出臺相關政策法規,很難去界定責任歸屬問題。”張翔表示,目前我國現有法律法規對于自動駕駛數據的管理更多地聚焦于信息安全上,即涉及個人隱私、國家安全的數據如何處理,對于數據開源尚無要求,其安全性究竟誰來負責并無明確界定。法律層面的空白難免讓企業使用開源數據存在顧慮。計算視覺新創公司Roboflow創始人就曾指出,一些用來訓練自動駕駛汽車的知名數據集遺漏了不少關鍵數據,這可能會導致準確性低、決策糟糕,給自動駕駛汽車帶來風險。
不過,在張翔看來,自動駕駛數據共享并非不可實現。由于自動駕駛發展仍處于早期階段,數據開源的商業模式還遠遠沒有形成。出于對行業競爭等多方面因素的考量,企業目前對于數據的所有權仍十分謹慎。此外,邵元駿也表示,對于車企而言,它們目前對自動駕駛的等級需求并不強烈,難度相對較低,因此不需要開源數據也可以滿足現有需求。不過,隨著技術的不斷進步以及軟件復雜度的不斷提升,企業對數據開源的需求將會增大。“到那時車企面臨的開發成本會越來越高,它們就會更愿意合作共建數據開源平臺,或者與第三方自動駕駛公司合作,采購公開數據。”張翔如是說。(記者:張奕雯)