在過(guò)去幾年,全球的數(shù)據(jù)量以每年58%的速度快速增長(zhǎng),類(lèi)型也不斷豐富,模型訓(xùn)練擁有海量的優(yōu)質(zhì)樣本,但更大的挑戰(zhàn)來(lái)自于算法和硬件計(jì)算架構(gòu),為此,浪潮提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別軟硬件一體化解決方案
圖像識(shí)別指用視覺(jué)傳感器(攝像頭)和計(jì)算機(jī)來(lái)模擬人眼和大腦,進(jìn)行物體識(shí)別、跟蹤和測(cè)量,進(jìn)而做圖形處理讓計(jì)算機(jī)理解真實(shí)世界。圖像識(shí)別技術(shù)有很多應(yīng)用場(chǎng)景,如:人臉識(shí)別、拍照識(shí)別、物體識(shí)別等各種圖像場(chǎng)景的識(shí)別。
基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)發(fā)展痛點(diǎn)
用來(lái)訓(xùn)練識(shí)別模型的樣本數(shù)據(jù)不足
訓(xùn)練圖像識(shí)別模型,需大量的樣本數(shù)據(jù)多次迭代訓(xùn)練,數(shù)據(jù)須具有識(shí)別對(duì)象的基本特征,有不同的背景角度區(qū)分,數(shù)據(jù)樣本越豐富,模型的識(shí)別精度越高。數(shù)據(jù)量積累不足,使得模型精準(zhǔn)度往往不高。
圖像識(shí)別算法不夠先進(jìn)
圖像識(shí)別從最初的特征值抓取,發(fā)展到模式識(shí)別的邊緣濾波,形態(tài)學(xué)檢測(cè)經(jīng)歷了20年。現(xiàn)在主要停留在淺層訓(xùn)練的機(jī)器學(xué)習(xí)階段,盡管模型可實(shí)現(xiàn)機(jī)器替代人,但算法無(wú)法自行迭代學(xué)習(xí),僅算是樣本訓(xùn)練的智能程序。
計(jì)算機(jī)集群性能不夠,計(jì)算用時(shí)太長(zhǎng)
算法執(zhí)行需硬件架構(gòu)的支撐,一個(gè)模型對(duì)海量的樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),在CPU上執(zhí)行一般需幾天甚至幾個(gè)月,大大拉長(zhǎng)了研發(fā)周期和拖慢產(chǎn)品進(jìn)程。因此,先進(jìn)的硬件計(jì)算架構(gòu)是激活優(yōu)秀算法的前提。
基于深度學(xué)習(xí)的圖像識(shí)別的軟件解決方案
軟件架構(gòu):MPI+Caffe
深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法是深度學(xué)習(xí)領(lǐng)域普遍采用的神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,Caffe是目前最快的CNN架構(gòu)。浪潮的集群版Caffe計(jì)算框架正是切中當(dāng)下深度學(xué)習(xí)的迫切需求,它采用MPI技術(shù)對(duì)Caffe版本進(jìn)行數(shù)據(jù)并行優(yōu)化,該框架基于伯克利caffe架構(gòu)進(jìn)行開(kāi)發(fā),完全保留原始caffe架構(gòu)的特性。即:純粹的C++/CUDA架構(gòu),支持命令行、Python和MATLAB接口等多種編程方式,具備上手快、速度快、模塊化、開(kāi)放性等眾多特性,為用戶(hù)提供了最佳的應(yīng)用體驗(yàn)。另外,鑒于眾多用戶(hù)基于CPU進(jìn)行深度學(xué)習(xí)應(yīng)用研究的現(xiàn)實(shí),浪潮還可提供C-G算法遷移增值服務(wù),針對(duì)用戶(hù)目前的深度學(xué)習(xí)算法,做硬件適配性算法遷移和升級(jí)優(yōu)化,幫助用戶(hù)做到算法的更快,更好。硬件架構(gòu):IB網(wǎng)絡(luò)+GPU集群+Lustre并行存儲(chǔ)
以浪潮NF5568M4為代表的GPU服務(wù)器的產(chǎn)品,在同CPU計(jì)算力下, GPU配置數(shù)量比業(yè)內(nèi)平均水平高出50%,且最高支持的單卡計(jì)算能力比業(yè)內(nèi)主流水準(zhǔn)高50%浪潮根據(jù)深度學(xué)習(xí)多并行,高I/O需求,設(shè)計(jì)出Lustre分布式并行存儲(chǔ)系統(tǒng)和56Gb/s InfiniBand網(wǎng)絡(luò)架構(gòu)的橫向擴(kuò)展的GPU主從硬件集群架構(gòu),配合浪潮inspur-caffe架構(gòu)實(shí)現(xiàn)了跨多節(jié)點(diǎn)的數(shù)據(jù)并行計(jì)算,該架構(gòu)兼顧計(jì)算密集型,IO密集型等計(jì)算模型硬件需求特點(diǎn),同時(shí)支持Pascal GPU,最大可實(shí)現(xiàn)超100個(gè)GPU卡并行計(jì)算。
該方案利用超級(jí)計(jì)算機(jī)設(shè)計(jì)思路,突破多機(jī)多卡并行計(jì)算I/O速率不足的技術(shù)瓶頸,在保證系統(tǒng)穩(wěn)定性前提下,使高性能GPU計(jì)算能力得到充分發(fā)揮,幫助用戶(hù)大幅提升線下模型訓(xùn)練速度,降低每個(gè)計(jì)算核心的TCO。配合浪潮MPI-Caffe架構(gòu)的深度學(xué)習(xí)算法,用戶(hù)在圖像識(shí)別類(lèi)應(yīng)用上,實(shí)現(xiàn)高精度圖像識(shí)別模型的快速訓(xùn)練,加速后期業(yè)務(wù)產(chǎn)品化進(jìn)程。
實(shí)測(cè)顯示,對(duì)1.3M張圖片進(jìn)行9層模型訓(xùn)練時(shí),4顆E5-2699V3處理器的2臺(tái)服務(wù)器需3天(72小時(shí))方完成訓(xùn)練,使用浪潮4卡最新GPU軟硬一體化解決方案只需不到9.5個(gè)小時(shí)就可以完成全部工作。
企業(yè)通過(guò)圖像識(shí)別技術(shù),建立物體、場(chǎng)景、人臉、著裝、文檔圖片、視頻內(nèi)容等識(shí)別&搜索綜合系統(tǒng),通過(guò)多維度解讀圖片內(nèi)容,挖掘數(shù)據(jù)價(jià)值,使產(chǎn)品運(yùn)營(yíng)團(tuán)隊(duì)更好地描繪用戶(hù)畫(huà)像,幫助企業(yè)實(shí)現(xiàn)更精準(zhǔn)的營(yíng)銷(xiāo)推送,內(nèi)容審核,大數(shù)據(jù)挖掘。
廣泛應(yīng)用于各類(lèi)電商平臺(tái),視頻直播平臺(tái),在線教育平臺(tái),大幅度提升產(chǎn)品&內(nèi)容運(yùn)營(yíng)團(tuán)隊(duì)效率。在無(wú)人駕駛,家庭機(jī)器人,無(wú)人機(jī),現(xiàn)實(shí)增強(qiáng)等前沿應(yīng)用上提供嵌入式智能后臺(tái),以更加智能化的數(shù)據(jù)利用方式,增加用戶(hù)粘度,擴(kuò)展應(yīng)用維度,激發(fā)更具想象力的用戶(hù)體驗(yàn)。