7月21日消息,達摩院自動駕駛實驗室提出一種高性能(néng)網絡輕量化方法“動态寬度可(kě)變網絡”,解決了以往算法硬件效率低下的問題,在ImageNet數據集上達成2到4倍的理(lǐ)論加速和1.62倍實際加速,以最高5.9%的精(jīng)度優勢超越業界最優方法。該模型将應用(yòng)于達摩院的“小(xiǎo)蠻驢”無人車(chē),也适用(yòng)于各類有模型輕量化需求的嵌入式設備。
深度學(xué)習雖好,但很(hěn)難部署到嵌入式設備上。深度學(xué)習模型對硬件的算力和内存有很(hěn)高要求,而嵌入式設備往往算力有限,因此,模型輕量化是業界重要的應用(yòng)研究内容。
以達摩院研發的L4級無人車(chē)小(xiǎo)蠻驢為(wèi)例,早期demo階段的無人車(chē)使用(yòng)工控機執行所有的自動駕駛計算任務(wù),2020年正式發布的小(xiǎo)蠻驢則改用(yòng)達摩院自研的高性能(néng)、低功耗、低成本嵌入式異構計算單元,後者需以1/3算力實現工控機級别的智能(néng)水平。為(wèi)此,達摩院持續進行軟硬件協同優化設計,包括探索模型輕量化方法。
神經網絡剪枝(pruning)是模型輕量化方法之一,它能(néng)減少網絡參數、降低存儲要求、提高計算速度。但既有算法存在瓶頸問題,算法模型與硬件計算不兼容,理(lǐ)論分(fēn)析與實際加速之間存在很(hěn)大差距,需要犧牲相當的計算精(jīng)度和時延,這在自動駕駛應用(yòng)中(zhōng)是不可(kě)接受的。
圖說:動态寬度可(kě)變網絡通過學(xué)習一個寬度可(kě)變超網絡和一個動态門控機制來實現不同樣本的動态路由
達摩院自動駕駛團隊提出了“動态寬度可(kě)變網絡”(Dynamic Slimmable Network,DS-Net)算法,在測試時,根據不同輸入,預測性地調整網絡濾波器數量,既不影響計算精(jīng)度,還解決了以往算法中(zhōng)硬件效率低下和計算浪費的問題。
濾波器是圖像處理(lǐ)任務(wù)中(zhōng)的概念,主要作(zuò)用(yòng)是提取對象特征作(zuò)為(wèi)圖像識别的特征模式。主流算法通常會激活所有濾波器,最大限度壓榨硬件算力。達摩院模型把剪枝視作(zuò)動态過程,根據計算任務(wù)動态調整濾波器的激活數量。比如,無人車(chē)在行駛中(zhōng)感知到行人、汽車(chē)等簡單場景,隻需easy模式;如果遇到“一輛卡車(chē)拖着一棵大樹”的複雜場景,則啓用(yòng)hard模式,激活更多(duō)濾波器。
在ImageNet上,對于ResNet和MobileNet,該方法達成了2到4倍的理(lǐ)論加速和1.62倍的實際加速,超越現有的剪枝、網絡搜索和動态網絡壓縮方法,并以最高5.9%的精(jīng)度優勢超越了SOTA(state-of-the-art)方法Universally Slimmable Network。
達摩院自動駕駛實驗室工程師王兵介紹,該方法目前正在适配小(xiǎo)蠻驢無人車(chē)。由于并非針對特定的硬件設計,算法通用(yòng)性高,适用(yòng)于各類有模型輕量化需求的嵌入式設備。
據悉,小(xiǎo)蠻驢無人車(chē)現已量産(chǎn)投用(yòng),未來一年預計将有1000輛車(chē)進入全國(guó)的高校和社區(qū),開展末端配送服務(wù)。
圖說:動态寬度可(kě)變網絡成功加速ResNet-50和MobileNetV1,減少2到4倍的計算量,實現1.17倍、1.62倍的實際加速;以最高5.9%的精(jīng)度優勢超越了Universally Slimmable Network