1、CPU,GPU,DSP,NPU,到底哪個更適用於深度學習
CPU、GPU:用轎車運貨
在英偉達開發出針對人工智慧的定製GPU,並堅持DGX-1 系統之後,Intel也不甘落後,在收購深度學習創業公司 Nervana Systems之後,Intel也公布了用於深度學習的Xeon Phi家族新成員,在深度學習處理器領域開辟新戰場。
在不久前,Intel還發布了一些Xeon Phi 的基準測試結果,其聲稱內容總結如下:
1、四片 Knights Landing Xeon Phi 晶元比四片 GPU要快 2.3 倍;
2、在多節點系統中, Xeon Phi 晶元的能比 GPU 更好地擴展38% ;
3、128 塊 Xeon Phi 的伺服器組成的系統要比單塊 Xeon Phi 伺服器快 50 倍,暗示著 Xeon Phi 伺服器的擴展性相當好;
4、使用Intel優化版的 Caffe 深度學習框架時,Xeon Phi 晶元要比標准 Caffe 實現快 30 倍。
一言蔽之,Intel的眾核晶元在深度學習上比英偉達的GPU更為高效。
不過,英偉達也隨之反擊,聲稱這是Intel使用了其舊的基準測試結果,並表示:
1、如果英特爾使用更新一點的 Caffe AlexNet 實現結果的話,它就會發現四塊上代英偉達 Maxwell GPU 實際上比四塊英特爾 Xeon Phi 伺服器集群快 30%。
2、另外,一旦英偉達的 GPU 從 28nm 的平面工藝轉移到 16nm 的 FinFET 工藝上時,GPU的性能和效率還會有很大的提升。
3、對於深度學習,英偉達還強調更少的高性能節點無論如何都會比更多低性能節點好。並以其最新的 DGX-1為例,認為DGX-1比 21 個 Xeon Phi 伺服器集群快一點,比四個 Xeon Phi 伺服器集群快 5.3 倍。
筆者認為,Intel的眾核晶元也在一定程度上吸取了GPU的優勢,性能不俗,但短時間看還是GPU有優勢。不過,無論是針對人工智慧的眾核晶元還是定製版的GPU,本質上都不是專用處理器,實際上是拿現有的、相對成熟的架構和技術成果去應對新生的人工智慧,並沒有發生革命性的技術突破。
DSP:和真正神經網路晶元有差距
6月20日,中星微「數字多媒體晶元技術」國家重點實驗室在京宣布,中國首款嵌入式NPU(神經網路處理器)晶元誕生,目前已應用於全球首款嵌入式視頻處理晶元「星光智能一號」。不過,在經過仔細分析後,所謂「中國首款嵌入式神經網路處理器」很有可能是一款可以運行神經網路的DSP,而非真正意義的神經網路專用晶元。
從其低位寬的定點運算器推斷,星光智能一號僅可支持神經網路正向運算,無法支持神經網路的訓練。從片上存儲結構看,星光智能一號基於傳統的片上緩存(Cache),而非像最近流行的神經晶元或FPGA方案一樣使用便簽式存儲。因此,在技術上看星光智能一號是典型的「舊瓶裝新酒」方案,將傳統的面向數字信號處理的DSP處理器架構用於處理神經網路,主要在運算器方面作了相應修改,例如低位寬和超越函數,而並非是「狹義的」神經網路專用處理器,如IBM的「真北」晶元。
NPU:為深度學習而生的專業晶元
從技術角度看,深度學習實際上是一類多層大規模人工神經網路。它模仿生物神經網路而構建,由若幹人工神經元結點互聯而成。神經元之間通過突觸兩兩連接,突觸記錄了神經元間聯系的權值強弱。
另外,神經網路中存儲和處理是一體化的,都是通過突觸權重來體現。 而馮·諾伊曼結構中,存儲和處理是分離的,分別由存儲器和運算器來實現,二者之間存在巨大的差異。當用現有的基於馮·諾伊曼結構的經典計算機(如X86處理器和英偉達GPU)來跑神經網路應用時,就不可避免地受到存儲和處理分離式結構的制約,因而影響效率。這也就是專門針對人工智慧的專業晶元能夠對傳統晶元有一定先天優勢的原因之一。
CPU、GPU與NPU相比,會有百倍以上的性能或能耗比差距
就現階段而言,傳統晶元廠商(如CPU、GPU和DSP)對於深度學習市場非常重視,因此利用他們巨大體量和市場推廣、銷售能力,大力推廣用這些傳統晶元來進行深度學習處理,其本質上也是對現有的技術進行微調,用傳統SIMD架構來適配神經網路。
然而,由於傳統CPU、GPU和DSP本質上並非以硬體神經元和突觸為基本處理單元,相對於NPU在深度學習方面天生會有一定劣勢,在晶元集成度和製造工藝水平相當的情況下,其表現必然遜色於NPU。
2、怎麼區別一台伺服器的好壞?
對於香港伺服器租用這項服務,不少站長都是略有耳聞的了,有些甚至接觸過或者是直接租用過香港伺服器的,但是仍然搞不清楚如何才能挑選到香港優質的伺服器。畢竟企業對香港伺服器的性能需求是不可精確量化的,而且還需要考慮企業網站的業務調整或者是訪客激增等情況帶來的變數。那麼如何判斷判斷伺服器性能好壞壹基比小喻來告訴你們。
一、香港伺服器運算能力香港伺服器的運算能力,主要取決於CPU,包括主頻、匯流排頻率、外頻、CPU的位和字長、緩存、指令集和製造工藝等參數。CPU核心數主要是指一個物理CPU的內核個數。目前隨著CPU技術的發展,多核、眾核以及通過互聯組建起來的集群和GPU/CPU等異構,在計算領域都有應用。香港伺服器的CPU,不僅負責數據運算,同時也承擔著各子系統協調配合的責任,它是衡量香港伺服器性能的首要指標。其香港伺服器提供業界最主流的Intel至強處理器,包括Xeon L5630*2、E5 2650等,可完美支持計算密集型任務的超快處理
。二、香港伺服器數據處理速度香港伺服器數據處理速度,主要由內存決定。強大的CPU並不足以提供均衡的性能,計算能力必須結合充足的內存和I/O帶寬,才能防止出現性能瓶頸。伺服器內存與我們電腦上的普通內存在性質上並沒有什麼兩樣,不同的是前者要求要嚴格的多,除了工作頻率之外,它更強調內在的糾錯技術能力和穩定性。內存系統包含內存容量、速度、是否支持內存鏡像等方面。一般情況,盡量選擇8G或者16G以上內存即可滿足大多數企業級網站和應用的數據處理性能需求,足以應對計算密集型工作的順利進行。
三、香港伺服器存儲能力與性能在香港伺服器中,磁碟系統的存儲能力和性能高低直接影響著伺服器的整體性能,這點尤其體現在資料庫伺服器和文件伺服器中。因此,在選擇伺服器產品時,磁碟系統成為我們第二個重點考察的對象。磁碟系統則包括磁碟容量、RAID級別、磁碟IO吞吐率等參數。與普通PC機的硬碟相比,香港伺服器硬碟具備速度快、可靠性高和支持熱插拔等特性。而對香港伺服器運行速度的影響則主要體現在數據讀取和寫入方面。一般香港伺服器租用商提供容量型磁碟HDD和性能型磁碟SSD可供用戶選擇,如何權衡兩者利弊,則需要用戶結合自身平台需求進行取捨。