網易科技訊 9月18日消息,華為全聯接2019大會上,華為副董事長胡厚崑發(fā)布了Atlas 900 AI訓練集群。此次發(fā)布的Atlas 900 AI訓練集群由數千顆昇騰910 AI處理器互聯構成,是當前全球最快的AI訓練集群,代表了當今全球的算力巔峰。其總算力達到256P~1024P FLOPS @FP16,相當于50萬臺PC的計算能力。
AI算力領先
Atlas 900 AI訓練集群采用業(yè)界單芯片算力最強的昇騰910 AI處理器,每顆昇騰910 AI處理器內置32個達芬奇AI Core,單芯片提供比業(yè)界高一倍的算力。Atlas 900 AI訓練集群將數千顆昇騰910 AI處理器互聯,打造業(yè)界第一的算力集群。
昇騰910 AI處理器采用SoC設計,集成“AI算力、通用算力、高速大帶寬I/O”,大幅度卸載Host CPU的數據預處理任務,充分提升訓練效率。
最佳集群網絡
Atlas 900 AI訓練集群采用“HCCS、 PCIe 4.0、100G以太”三類高速互聯方式,百TB全互聯無阻塞專屬參數同步網絡,降低網絡時延,梯度同步時延縮短10~70%。
在AI服務器內部,昇騰910 AI處理器之間通過HCCS高速總線互聯;昇騰910 AI處理器和CPU之間以最新的PCIe 4.0(速率16Gb/s)技術互聯,其速率是業(yè)界主流采用的PCIe 3.0(8.0Gb/s)技術的兩倍,使得數據傳輸更加快速和高效。在集群層面,采用面向數據中心的CloudEngine 8800系列交換機,提供單端口100Gbps的交換速率,將集群內的所有AI服務器接入高速交換網絡。
獨創(chuàng)iLossless 智能無損交換算法,對集群內的網絡流量進行實時的學習訓練,實現網絡0丟包與E2E μs級時延。
系統(tǒng)級調優(yōu)
Atlas 900 AI訓練集群通過華為集合通信庫和作業(yè)調度平臺,整合HCCS、 PCIe 4.0和100G RoCE三種高速接口,充分釋放昇騰910 AI處理器的強大性能。
華為集合通信庫提供訓練網絡所需的分布式并行庫,通信庫+網絡拓撲+訓練算法進行系統(tǒng)級調優(yōu),實現集群線性度>80%,極大提升了作業(yè)調度效率。
散熱系統(tǒng)
傳統(tǒng)數據中心多以風冷技術對設備進行散熱,但在人工智能時代傳統(tǒng)數據中心卻面臨非常大的挑戰(zhàn)。高功耗器件比如CPU和AI芯片帶來更大的熱島效應要求更高效的冷卻方式。液冷技術可以滿足數據中心高功率、高密部署、低PUE的超高需求。
Atlas 900 AI訓練集群采用全液冷方案,創(chuàng)新性設計業(yè)界最強柜級密閉絕熱技術,支撐>95%液冷占比。單機柜支持高達50kW超高散熱功耗,實現PUE<1.1的極致數據中心能源效率。
另外,在空間節(jié)省方面,與8kW風冷機柜相比,節(jié)省機房空間79%。極致的液冷散熱技術滿足了高功率、高密設備部署、低PUE的需求,極大地降低了客戶的TCO。
據了解,華為已在華為云上部署了一個Atlas 900 AI訓練集群,集群規(guī)模為1024顆昇騰910 AI處理器?;诋斍白畹湫偷?ldquo;ResNet-50 v1.5模型”和“ImageNet-1k數據集”,Atlas 900AI訓練集群只需59.8秒就可完成訓練,排名全球第一。
“ImageNet-1k數據集”包含128萬張圖片,精度為75.9%,在同等精度下,其他兩家業(yè)界主流廠家測試成績分別是70.2s和76.8s,Atlas 900 AI訓練集群比第2名快15%。
Atlas 900 AI集群主要為大型數據集神經網絡訓練提供超強算力,可廣泛應用于科學研究與商業(yè)創(chuàng)新,讓研究人員更快地進行圖像、視頻和語音等AI模型訓練,讓人類更高效地探索宇宙奧秘、預測天氣、勘探石油和加速自動駕駛的商用進程。
責任編輯:楊林宇
特別聲明:本網登載內容出于更直觀傳遞信息之目的。該內容版權歸原作者所有,并不代表本網贊同其觀點和對其真實性負責。如該內容涉及任何第三方合法權利,請及時與ts@hxnews.com聯系或者請點擊右側投訴按鈕,我們會及時反饋并處理完畢。
- 最新科技前沿 頻道推薦
-
微信支付消息通知怎么開啟和關閉 設置消息提2019-09-18
- 進入圖片頻道最新圖文
- 進入視頻頻道最新視頻
- 一周熱點新聞
已有0人發(fā)表了評論