深度學習正在迎來它的高光時刻。4月23日,首屆WAVE SUMMIT 2019深度學習開發(fā)者峰會在北京舉辦,過千位“慕名而來”的開發(fā)者與AI專家、學者一道見證了國內(nèi)真正意義上第一場深度學習開發(fā)者盛會。
會上,百度高級副總裁、深度學習技術(shù)及應用國家工程實驗室主任王海峰表示,“深度學習推動人工智能進入工業(yè)大生產(chǎn)階段,而深度學習框架是智能時代的操作系統(tǒng)。”他認為,深度學習技術(shù)已經(jīng)具備了很強的通用性,正在推動人工智能進入工業(yè)大生產(chǎn)階段,呈現(xiàn)出標準化、自動化和模塊化的特點。深度學習框架承上啟下,下接芯片、大型計算機系統(tǒng),上承各種業(yè)務模型、行業(yè)應用,是智能時代的操作系統(tǒng)。
PaddlePaddle全景圖首曝光 11項新特性及服務重磅發(fā)布
作為最早研究深度學習技術(shù)的公司之一,百度早在2013年即設立全球首個深度學習研究院。經(jīng)過沉淀與積累,2016年百度PaddlePaddle正式開源,成為中國首個也是目前國內(nèi)唯一開源開放、功能完備的端到端深度學習平臺。2017年,由國家發(fā)改委批復,百度牽頭籌建了國內(nèi)唯一的深度學習技術(shù)及應用國家工程實驗室。百度在深度學習領域的實力可見一斑。
核心技術(shù),是國之重器。開源三年的PaddlePaddle在深度學習開發(fā)者峰會上交出斐然的“成績單”。
百度深度學習技術(shù)平臺部總監(jiān)馬艷軍首次對外公布了PaddlePaddle全景圖,集核心框架、工具組件和服務平臺為一體的端到端開源深度學習平臺,囊括支持面向真實場景應用、達到工業(yè)級應用效果的模型,針對大規(guī)模數(shù)據(jù)場景的分布式訓練能力、支持多種異構(gòu)硬件的高速推理發(fā)動機等。此次,重磅發(fā)布11項新特性及服務,包含PaddleNLP、視頻識別工具集、Paddle Serving、PaddleSlim、AutoDL Design等多種深度學習開發(fā)、訓練、預測環(huán)節(jié)的“硬通貨”?,F(xiàn)場還宣布“1億元”AI Studio算力支持計劃,首次公布PaddlePaddle中文名“飛槳”,出自于朱熹的兩句詩“聞說雙飛槳,翩然下廣津”。
馬艷軍表示,“百度為大家提供的不僅是深度學習框架,而是提供一整套緊密關聯(lián)、靈活組合的完整工具組件和服務平臺,全面覆蓋初學者、零算法基礎工程師、算法工程師、研究者,平臺功能覆蓋更加完備,覆蓋的用戶更全面,各部分的打通更加順暢?!?/p>
首先,核心框架層開放了從開發(fā)到訓練,再到預測的一整套完整能力。開發(fā)環(huán)節(jié), PaddlePaddle已開源60多個經(jīng)過真實業(yè)務場景驗證的官方模型,涵蓋視覺、NLP、推薦等 AI核心技術(shù)領域,成為官方支持模型最多的深度學習平臺。全新發(fā)布PaddleCV及業(yè)界首個視頻識別工具集。面向工業(yè)應用的中文 NLP工具集 PaddleNLP,將自然語言處理領域的多種模型用一套共享骨架代碼實現(xiàn),可減少開發(fā)者在開發(fā)過程中的重復工作。擁有當前業(yè)內(nèi)效果最好的中?語義表示模型和基于用戶大數(shù)據(jù)訓練的應用任務模型,模型源于產(chǎn)業(yè)實踐,達到工業(yè)級的應用效果。
訓練環(huán)節(jié),大規(guī)模分布式訓練主要從三方面實現(xiàn)了升級。首先多機多卡的全面高效支持,提升了速度;其次是在CPU的應用場景方面,針對大規(guī)模稀疏特征設計并開放了大規(guī)模稀疏參數(shù)服務器,開發(fā)者可輕松下載相關鏡像使用;大規(guī)模分布式訓練支持在各種容器上高速運行,同時支持在K8S生態(tài)下使用PaddlePaddle進行訓練。
數(shù)據(jù)處理方面,優(yōu)化分布式IO,增加遠程文件系統(tǒng)流式讀取能力。GPU多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力,在低配網(wǎng)絡帶寬網(wǎng)絡環(huán)境下,例如10G網(wǎng)絡下,同步訓練可提速10倍。
開發(fā)和訓練后,將模型部署到各種應用場景下是非常關鍵的一個步驟。部署環(huán)節(jié)需要高速的推理發(fā)動機,在此基礎上,為了部署在更多的硬件上往往需要做模型壓縮,在真正使用時,還需要軟硬一體能力的支持?;诖?PaddlePaddle準備了完整的端到端的全流程部署方案,并將持續(xù)擴展對各類硬件的支持?;诙嘤布闹С?PaddlePaddle提供性能全面領先的底層加速庫和推理發(fā)動機,全新發(fā)布Paddle Serving支持服務器端的快速部署。不僅如此,模型體積壓縮庫PaddleSlim也是為開發(fā)者準備的“重磅驚喜”,針對體積已經(jīng)很小的MobileNet模型,它仍能在模型效果不損失的前提下實現(xiàn)70%以上的體積壓縮。
靈活、高效、易用是PaddlePaddle大受歡迎的重要原因。在多項全新發(fā)布及重磅升級中,工具組件方面顯得尤為突出。此次,PaddlePaddle不僅重磅開源AutoDL Design、升級PARL,并首次提出并發(fā)布預訓練一站式管理工具PaddleHub。
傳統(tǒng)神經(jīng)網(wǎng)絡的結(jié)構(gòu)設計是由人根據(jù)經(jīng)驗設計,并不斷的進行調(diào)參訓練獲得最優(yōu)結(jié)果,這個過程較為復雜和費時費力。AutoDL Design自動化網(wǎng)絡結(jié)構(gòu)設計是用深度學習設計深度學習,目前已經(jīng)全面超過人類專家設計的網(wǎng)絡效果。升級后的強化學習工具PARL,在算法的覆蓋、高性能通訊以及并行的訓練方面做了大量支持和擴展。簡明易用的預訓練模型管理工具PaddleHub,提供包括預訓練模型管理、命令行一鍵式使用和遷移學習三大功能,10行代碼即可讓開發(fā)者完成模型遷移。
百度豪擲1億元免費算力 為開發(fā)者破除算力桎梏
大數(shù)據(jù)、大模型、大算力是深度學習發(fā)展的必備因素,算力的重要性不言而喻。百度豪擲1億元免費算力,力為普通開發(fā)者破除算力桎梏。馬艷軍宣布,百度一站式開發(fā)平臺AI Studio重磅推出算力支持計劃,“我們提供總計1億元免費算力,助力開發(fā)者成功”。據(jù)介紹,免費算力主要以兩種模式提供,第一種是一人一卡模式,V100的訓練卡包括16G的顯存,最高2T的存儲空間。另外一種是遠程集群模式,PaddlePaddle提供高性能集群,供開發(fā)者免費使用。
深度學習的標準化、自動化、模塊化推動人工智能進入工業(yè)大生產(chǎn)階段,也進一步為產(chǎn)業(yè)升級提供了強有力的“助攻”。基于PaddlePaddle,北京林業(yè)大學研發(fā)的面向信息素誘捕器的智能蟲情監(jiān)測系統(tǒng),研究對象是紅脂大小蠹。這套檢測系統(tǒng)的應用大幅降低蟲情監(jiān)測的人力成本,以往人工檢測需要一周的工作量,現(xiàn)在用自動檢測一小時內(nèi)就能處理完。中科院遙感與數(shù)字地球研究所應用PaddlePaddle Faster R-CNN模型,結(jié)合特征提取網(wǎng)絡VGG16及區(qū)域建議網(wǎng)絡(Region Proposal Network,RPN),以及融合attention機制的Deeplab v3網(wǎng)絡對遙感影像進行目標檢測與語義分割,從而實現(xiàn)對重大工程目標與建設用地變化圖斑的提取。輔助國家進行重大工程用地擴張與變化情況的監(jiān)測工作,并對土地資源的利用進行有效管理與控制。
深度學習發(fā)展一方面是技術(shù)的不斷創(chuàng)新突破,另一方面需要建設完整健康的生態(tài)。高校方面,百度提供深度學習師資培訓,并通過協(xié)同育人專項基金以及AI Studio教育版,培育深度學習領域高校人才;在開發(fā)者社區(qū)中,PaddlePaddle提供免費在線課程、免費算力支持,以及不間斷的賽事互動,持續(xù)推動深度學習技術(shù)發(fā)展;企業(yè)方面,不僅舉辦黃埔學院,還發(fā)布了“AI快車道”計劃以及AI技術(shù)的生態(tài)扶持計劃,預計深度扶植1000家AI企業(yè)。
此外,本次大會百度還為開發(fā)者們精心打造了屬于他們的深度學習“江湖”,不但有傳授深度學習“武功秘籍”的公開課,還有“實戰(zhàn)過招”的開發(fā)者市集,一次性滿足深度學習開發(fā)者從“心法招式”到“當面切磋”的需求。
這一場過千位開發(fā)者組成的深度學習開發(fā)者峰會,必將掀起國內(nèi)深度學習史無前例的浪潮,加速深度學習技術(shù)的發(fā)展和產(chǎn)業(yè)應用,必將成為歷史上不可磨滅的一筆。