Google放大招：如何追趕人工智慧硬體的浪潮

由 DIY MAKER 於 06/08/2018 發表收藏文章

在今年的GoogleI/O大會上，除了安卓P之外，Google還發佈了非常重要的硬體：TPU3.0。這是這家科技巨頭第三次發佈新版本的機器學習專用處理器。

AI開銷大，Google已All in

人工智慧需要大量的計算資源進行訓練。但是這個規模有多大？很多人是沒概念的。對於大公司來說，對資源的要求非常高，尤其是神經網路，比如GoogleI/O大會大放異彩的安卓電池節約模式和自動亮度調整，就是Deepmind的產品，Deepmind在官方新聞並未透露讓手機學習這些行為需要多少資源，但是在圍棋專案上可以窺探一下。

http://www.oxfordsparks.ox.ac.uk/sites/oxfordsparks.ox.ac.uk/files/machine_learning_Oxford_Sparks2.PNG

圖片來源：ox.ac.uk

2000個P100運行兩三周才能訓練出強大的圍棋程式Deepmind訓練AlphaGoZero的時候，2000個TPU跑了40天。AlphaZero訓練則是調用了5000個TPU。寫成論文之後，Facebook在重現論文的時候，則是使用了2000個GPU運行了兩三周的時間，這個GPU都是英偉達的P100，一個8GPU的學習伺服器英偉達就要賣到上百萬人民幣。
TPU：每小時6.5美元，訓練AlphaGo要數百萬美元

讓巨頭們狠下心來自己搞AI硬體的動力來自多個方面，一來Google自己做針對TensorFlow優化的TPU效果好，二來現在Google雲都可以租賃分時使用TPU資源了，對於擅長硬體或是雲計算的科技巨頭們來說，是時候發展自己的AI硬體了，這正在成為大公司的遊戲。

CPU在任務處理器裏出現兩個核心，可以追溯到十多年前的奔騰四時代，剛剛出現的HyperThreaing技術。不過很多年過去，由於CPU的單個核心任務繁重，所以就算是伺服器的版本，核心數也不過20多個就基本到頭了。

https://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2017/08/1503904326ml-1024x461.jpg

圖片來源：dab1nmslvvntp.cloudfront.net

GPU更多的核更適合機器學習和AI在神經網路出現之後，要用電腦系統去模擬更多的人大腦的神經元，這樣神經網路在訓練的時候對資源的開銷非常大。因為神經網路的特點是節點多，這對於核心不多的CPU來說就需要非常大的伺服器集群。但是當時人們發現了顯卡，單個顯卡上面有很多個單元，正好適合訓練人工智慧的神經網路。

在TitanV當中，英偉達加入了640個張量單元用來加速AI訓練速度

英偉達的股票過去幾年成為投資熱點，暴漲了數倍而神經網路單個節點並不需要多高的計算能力，這讓顯卡企業英偉達迅速的推出了針對神經網路、機器學習專用的GPU，過去幾年英偉達的股價暴漲數倍。科技巨頭們採購的GPU往往以萬計，只有這個規模才能滿足他們對於探索的需求。
DGX-2可以支持單機16個V100GPU現在英偉達成為了業內最大的機器學習GPU的供應商，並且英偉達自己也提供DGX系列機器學習伺服器，今年的新款可以單機支持16個GPU，過去是8個。可以說英偉達是AI時代最大硬體贏家也不為過。

贏家自信的微笑這裏我們回到開頭，Facebook訓練圍棋程式ELF用了多少個GPU？2000個！英偉達總裁黃仁勳還可以笑很久很久。

Google最早的GoogleBrain搞機器識圖的時候，就是大規模的GPU集群。據說曾經用力上萬張GPU來進行學習訓練。因為GPU並沒有針對性的對Google的TensorFlow框架進行優化。而到了和李世石下圍棋的版本，則已經開始使用自己的TPU，但是多達50個。

Google完整經歷了從CPU到GPU再到TPU的流程到了與柯潔下棋的時候，可以看到機器已經變成了只要一個4U左右的4TPU伺服器就可以，這就是專用晶片的威力，對於AI和神經網路，專用晶片的效率提升是指數式的，而不是線性的幾個機架縮小到1個。
TPU2.0：四個一張PCB，算力可以達到180TFlopsGoogle的TPU全稱叫做TensorProcessingUnit，張量處理單元，它針對Google的深度學習框架TensorFlow定制開發，TPU推出只有8位的低精度計算，並且有不小的板載記憶體以減少對內存的訪問，但是優化後可以極大的提高機器學習的效率。

https://www.springboard.com/blog/wp-content/uploads/2017/01/mathematica.jpg

圖片來源：www.springboard.com

TPU3.0的高功耗不得不用上水冷散熱

圖片下有8個互聯機架有每秒1000萬億次的能力與柯潔下棋的是TPU二代，四個TPU有180TFlops的計算能力。而這兩天的GoogleI/O上則推出了TPU3.0版本，功耗進一步加大，使用了水冷。根據GoogleCEOPichai的話說，要比過去快十倍以上：這其實說的是一整個集群模組，可以達到100PFlops，也就是所說的每秒1000萬億次。

TPU只是對TensorFlow優化當然TPU不是萬能的，它針對的是Google的學習框架，而Facebook的學習PyTorch框架基本就沒法用，所以目前來說還只是針對性的硬體。

Google的TPU本質上是ASIC，當然機器學習不止一條路，微軟就在5月7日的Build2018大會上，宣佈了ProjectBrainwave的預覽版，這其實比Google的I/O還早了幾天。
微軟押寶FPGA

微軟ProjectBrainwave團隊負責人DougBurger展示FPGA模組微軟押寶的是FPGA（現場可編程門陣列FieldProgrammableGateArray，簡稱FPGA），微軟始終認為FPGA更靈活，可以適應多種機器學習的類型。微軟還聲稱，FPGA可以使用圖形識別模型每1.3毫秒就識別一張圖片，而根據微軟CEOSatyaNadella的演講，FPGA的延遲要比TPU低5倍。

近看FPGA，可以插在全高的PCIE伺服器模組上加速AI和深度學習計算微軟的FPGA靈活性在於不僅僅支持TPU支持的TensorFlow，也支持微軟自己的人工智慧認知工具包，前面說的識別圖片就是最基礎的人工智慧應用之一。與Google雲支持TPU差不多，微軟也即將在Azure雲中支持FPGA的人工智慧、機器學習加速。

undefined
最近關於國產半導體的事情鬧得沸沸揚揚。其實半導體這種成熟的工業，要追趕的路還很長，不要妄自菲薄，也不要有點成績就沾沾自喜嚷嚷趕英超美才是正確的態度，路是一步一步走出來的。最近國內的晶片領域的領軍企業、具有深厚中國科學院背景的寒武紀就推出了MLU。

寒武紀的成品模組與晶片MLU造型上和英偉達標准版的顯卡有點像，也是在PCB後部用一個渦輪風扇橫向吹風散熱的結構，這種結構成熟，可以很容易的放到機箱裏面。當然我們更關心的是性能。根據寒武紀官方公佈的數字，INT8模式下最高可以達到166.4TFLOPS，大概和Google的TPU2.0性能相當。

寒武紀會成為中國的英偉達嗎？MLU和GPU一樣，都相當靈活，可以容易的放到機箱、伺服器裏面起到專門的AI加速作用，並且MLU的工藝是TSMC的16nm，估計未來國內很多AI領域的研究會圍繞MLU展開。
機器學習硬體的應用場景，分學習和應用推理兩部分

Google助手號稱已經通過了圖靈測試，分辨不出AI與真人的區別今天列舉的只是眾多的AI硬體當中的幾個，還有大量獲得千萬美元以上風投公司的AI硬體在路上，燒錢背後是人們意識到了AI同過圖靈測試之後展現的強大，尤其是GoogleI/O大會上的Google助手，讓人分辨不出就是是人還是機器。但無論如何，硬體越強大、AI越智能，越能解放我們的雙手和勞動力，讓真正的大腦投入到思考當中。

https://pic.pimg.tw/diymaker/1531203698-3043664754_n.png

圖片來源：pic.pimg.tw

Google AIY Projects

留言

我要評論
請按此登錄後留言。未成為會員? 立即註冊

專欄簡介

DIY MAKER DIY人工智慧，Geek, make world better

編輯簡介

一颗花椰菜

快捷鍵：←

快捷鍵：→

Google放大招：如何追趕人工智慧硬體的浪潮

留言

專欄簡介

編輯簡介

下載 FanPiece 手機 App