RM新时代网站-首页

                0
                • 聊天消息
                • 系統消息
                • 評論與回復
                登錄后你可以
                • 下載海量資料
                • 學(xué)習在線(xiàn)課程
                • 觀(guān)看技術(shù)視頻
                • 寫(xiě)文章/發(fā)帖/加入社區
                會(huì )員中心
                創(chuàng )作中心

                完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

                3天內不再提示

                國產(chǎn)千卡GPU集群完成大模型訓練測試,極具高兼容性和穩定性

                Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng)原創(chuàng ) ? 作者:李彎彎 ? 2024-06-11 07:50 ? 次閱讀
                電子發(fā)燒友網(wǎng)報道(文/李彎彎)隨著(zhù)人工智能技術(shù)的快速發(fā)展,對于計算能力的需求日益增長(cháng)。特別是在大模型訓練方面,對算力的需求更是呈現指數級增長(cháng)。傳統的單卡計算已經(jīng)無(wú)法滿(mǎn)足大模型訓練的需求,因此,采用多卡集群的方式成為了必然的選擇。

                2023年底,摩爾線(xiàn)程推出首個(gè)全國產(chǎn)千卡千億模型訓練平臺“摩爾線(xiàn)程KUAE智算中心”。摩爾線(xiàn)程相關(guān)負責人此前談到,百卡或更小規模都是實(shí)驗性的,千卡才是大集群的基本單元,只有千卡及以上才能滿(mǎn)足一些基礎模型的算力需求。

                國產(chǎn)千卡集群完成大模型訓練測試

                日前,摩爾線(xiàn)程官方宣布,聯(lián)合羽人科技,已成功實(shí)現了夸娥(KUAE)千卡智算集群與羽人系列模型解決方案的訓練兼容適配,高效完成了70億參數羽人大語(yǔ)言模型YuRen-7b的訓練測試。

                測試結果顯示,訓練效率達到預期,夸娥千卡智算集群展現出了高度的兼容性和穩定性。未來(lái),羽人科技的零代碼訓練平臺將遷移到摩爾線(xiàn)程夸娥千卡智算集群。

                在今年5月27日,摩爾線(xiàn)程聯(lián)合無(wú)問(wèn)芯穹宣布,雙方在近日正式完成基于國產(chǎn)全功能GPU千卡集群的3B規模大模型實(shí)訓。該模型名為“MT-infini-3B”,在摩爾線(xiàn)程夸娥(KUAE)千卡智算集群與無(wú)問(wèn)芯穹AIStudio PaaS平臺上完成了高效穩定的訓練。

                MT-infini-3B模型訓練總用時(shí)13.2天,經(jīng)過(guò)精度調試,實(shí)現全程穩定訓練不中斷,集群訓練穩定性達到100%,千卡訓練和單機相比擴展效率超過(guò)90%。

                5月29日,摩爾線(xiàn)程又與國內領(lǐng)先的數據智能服務(wù)商滴普科技共同宣布,摩爾線(xiàn)程“夸娥”(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi v1.0已完成訓練、推理適配,獲得產(chǎn)品兼容互認證明。

                基于摩爾線(xiàn)程夸娥千卡智算集群,滴普科技成功完成了LLaMA2 700億參數大語(yǔ)言模型的預訓練測試。訓練時(shí)長(cháng)共計77小時(shí),全程無(wú)故障連續運行,集群訓練穩定性達到100%,訓練效率和兼容性均達到預期。

                可以看到,摩爾線(xiàn)程全國產(chǎn)夸娥千卡智算集群在大模型訓練上展現出足夠的實(shí)力。摩爾線(xiàn)程夸娥方案基于全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點(diǎn)續訓、分布式訓練、集群可靠性等8大核心能力。

                MTT S4000是摩爾線(xiàn)程推出的大模型智算加速卡,采用第三代MUSA內核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,FP16算力為100TFLOPS。借助摩爾線(xiàn)程自研開(kāi)發(fā)工具,MTT S4000計算卡可以充分利用現有CUDA軟件生態(tài),實(shí)現CUDA代碼零成本遷移到MUSA平臺。

                大模型訓練用千卡集群搭建需要關(guān)注的重點(diǎn)

                可以看到,國產(chǎn)千卡集群已經(jīng)取得實(shí)質(zhì)性突破,在性能上能夠達到國際先進(jìn)水平,在應用上,已經(jīng)有多個(gè)大模型實(shí)訓案例。同時(shí),國產(chǎn)企業(yè)也在積極構建和完善生態(tài)系統。

                事實(shí)上,用于大模型訓練的千卡集群的搭建并不容易,需要注意多方面的事情。如基礎設施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計算單元,才能夠提供必要的計算能力和加速訓練過(guò)程。其次是網(wǎng)絡(luò )互聯(lián),構建能夠支持萬(wàn)卡級別高速互聯(lián)的智算集群,才能確保各個(gè)計算單元之間的數據傳輸效率和穩定性。還有分布式存儲,需要配置分布式存儲系統,滿(mǎn)足大模型訓練過(guò)程中大規模數據的存儲和訪(fǎng)問(wèn)需求。

                除了GPU的選擇,網(wǎng)絡(luò )互聯(lián)也是千卡集群建設需要關(guān)注的重點(diǎn)。大模型訓練千卡集群互聯(lián)要求高,這樣能夠確保集群的高效、穩定和可靠運行。

                具體來(lái)看,首先需要高帶寬與與低時(shí)延,大規模GPU集群中,模型訓練對卡間互聯(lián)的帶寬和時(shí)延提出更高要求,特別是在萬(wàn)億參數量模型中,網(wǎng)絡(luò )節點(diǎn)可能由百卡組建的“超節點(diǎn)”構成,單次通信數據量雖小但通信頻繁,因此需要高帶寬支持以實(shí)現快速數據傳輸。低時(shí)延同樣重要,因為在大模型訓練中,任何延遲都可能影響訓練效率。

                其次需要高效互聯(lián)拓撲,隨著(zhù)智算中心向千卡萬(wàn)卡級別的全互聯(lián)方向演進(jìn),傳統的直連拓撲結構不再適用。集群需要采用更高效、更先進(jìn)的互聯(lián)拓撲結構,如全向智感互聯(lián)(OISA)設計方案,以突破大規??ㄩg互聯(lián)的技術(shù)瓶頸。

                再者還需要支持大規模擴展,千卡集群的互聯(lián)方案需要支持從單機多卡到多機多卡、從單卡到千卡集群的無(wú)縫擴展。這要求互聯(lián)方案具有良好的可擴展性,能夠隨著(zhù)集群規模的增長(cháng)而靈活調整。

                另外還要考慮穩定性和可靠性、安全性、兼容性等。大模型訓練千卡集群的互聯(lián)方案有多種,如RDMA(遠程直接內存訪(fǎng)問(wèn))網(wǎng)絡(luò ),RDMA允許計算機之間的內存直接訪(fǎng)問(wèn),無(wú)需操作系統CPU的干預,從而大大降低了通信延遲,提高了數據傳輸速率。在千卡集群中,RDMA網(wǎng)絡(luò )可以確保節點(diǎn)間的高效數據傳輸,支持大規模的分布式訓練任務(wù)。

                NVLink高速互聯(lián),NVLink是NVIDIA開(kāi)發(fā)的一種GPU間高速互聯(lián)技術(shù),專(zhuān)為GPU到GPU的通信而設計。它提供了比PCIe更高的帶寬和更低的延遲,適用于多GPU系統內的數據共享和通信。在千卡集群中,可以使用NVLink連接GPU服務(wù)器,實(shí)現節點(diǎn)內部GPU間的高效互聯(lián)。

                高性能交換機與網(wǎng)絡(luò )拓撲,使用高性能交換機,如InfiniBand交換機或以太網(wǎng)交換機,來(lái)構建集群的網(wǎng)絡(luò )拓撲。網(wǎng)絡(luò )拓撲設計需要考慮集群的規模和通信需求,以確保所有節點(diǎn)之間的低延遲和高帶寬連接??赡艿木W(wǎng)絡(luò )拓撲包括全連接、部分連接或基于交換機的層次化結構。

                還有多路徑數據傳輸、全向智感互聯(lián)(OISA)設計方案等,OISA是一個(gè)新興的設計方案,旨在解決大規??ㄩg互聯(lián)的技術(shù)瓶頸。OISA通過(guò)優(yōu)化網(wǎng)絡(luò )協(xié)議和拓撲結構,實(shí)現了更高的帶寬、更低的延遲和更好的擴展性。該方案適用于需要高效通信的大規模GPU集群。

                寫(xiě)在最后

                千卡集群主要是用于處理大規模、高復雜度的計算任務(wù),特別是在人工智能(AI)、深度學(xué)習、大模型訓練等領(lǐng)域。而此前這種集群的建設都依賴(lài)國外的GPU,而如今,可以看到,全國產(chǎn)的千卡集群正在不斷進(jìn)步和完善,在當下國際GPU產(chǎn)品對中國限售的背景下,這對于國內人工智能,尤其是大模型的長(cháng)遠發(fā)展具有深遠意義。
                聲明:本文內容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權轉載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習之用,如有內容侵權或者其他違規問(wèn)題,請聯(lián)系本站處理。 舉報投訴
                • gpu
                  gpu
                  +關(guān)注

                  關(guān)注

                  27

                  文章

                  4490

                  瀏覽量

                  127352
                • AI
                  AI
                  +關(guān)注

                  關(guān)注

                  87

                  文章

                  27199

                  瀏覽量

                  264959
                • 大模型
                  +關(guān)注

                  關(guān)注

                  2

                  文章

                  1824

                  瀏覽量

                  1420
                收藏 人收藏

                  評論

                  相關(guān)推薦

                  摩爾線(xiàn)程與智譜AI完成大模型性能測試與適配

                  近日,摩爾線(xiàn)程與智譜AI在人工智能領(lǐng)域開(kāi)展了一輪深入的合作,共同對GPU模型進(jìn)行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉
                  的頭像 發(fā)表于 06-14 16:40 ?426次閱讀

                  摩爾線(xiàn)程與師者AI攜手完成70億參數教育AI大模型訓練測試

                  近日,國內知名的GPU制造商摩爾線(xiàn)程與全學(xué)科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項重要的大模型訓練
                  的頭像 發(fā)表于 06-14 16:31 ?209次閱讀

                  國產(chǎn)GPU實(shí)現千卡模型訓練測試

                  行業(yè)資訊
                  電子發(fā)燒友網(wǎng)官方
                  發(fā)布于 :2024年06月07日 16:54:46

                  智能測徑儀:穩定性成就精測量之選!

                  環(huán)境下保持穩定的測量性能。它以其高度的準確和可靠,為生產(chǎn)過(guò)程中的直徑測量提供了堅實(shí)的保障。 精準測量是穩定性智能測徑儀的核心優(yōu)勢之一。
                  發(fā)表于 06-05 17:30

                  摩爾線(xiàn)程和滴普科技完成大模型訓練與推理適配

                  近日,摩爾線(xiàn)程與滴普科技宣布了一項重要合作成果。摩爾線(xiàn)程的夸娥(KUAE)千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓練及推理適
                  的頭像 發(fā)表于 05-30 10:14 ?171次閱讀

                  國產(chǎn)GPU可替代!摩爾線(xiàn)程千卡集群點(diǎn)亮新成就

                  摩爾線(xiàn)程、無(wú)問(wèn)芯穹聯(lián)合宣布,雙方已經(jīng)正式完成MT-infini-3B 3B(30億參數)規模大模型的實(shí)訓,基于摩爾線(xiàn)程國產(chǎn)全功能GPU MTT S4000組成的
                  的頭像 發(fā)表于 05-29 11:27 ?344次閱讀
                  <b class='flag-5'>國產(chǎn)</b><b class='flag-5'>GPU</b>可替代!摩爾線(xiàn)程<b class='flag-5'>千卡</b><b class='flag-5'>集群</b>點(diǎn)亮新成就

                  摩爾線(xiàn)程千卡智算集群與滴普企業(yè)大模型完成訓練及推理適配

                  近日,摩爾線(xiàn)程與國內領(lǐng)先的數據智能服務(wù)商滴普科技共同宣布,摩爾線(xiàn)程夸娥(KUAE)千卡智算集群與滴普企業(yè)大模型Deepexi已完成訓練及推理
                  的頭像 發(fā)表于 05-29 10:28 ?188次閱讀
                  摩爾線(xiàn)程<b class='flag-5'>千卡</b>智算<b class='flag-5'>集群</b>與滴普企業(yè)大<b class='flag-5'>模型</b>已<b class='flag-5'>完成</b><b class='flag-5'>訓練</b>及推理適配

                  摩爾線(xiàn)程、無(wú)問(wèn)芯穹合作完成國產(chǎn)全功能GPU千卡集群

                  據介紹,此項訓練歷時(shí)13.2天,過(guò)程穩定而有序,集群整體運行穩定性達到了100%。相較于單機訓練,千卡
                  的頭像 發(fā)表于 05-27 14:40 ?317次閱讀

                  摩爾線(xiàn)程與無(wú)問(wèn)芯穹在國產(chǎn)GPU上首次實(shí)現大模型實(shí)訓

                  近日,摩爾線(xiàn)程與無(wú)問(wèn)芯穹共同宣布,雙方已正式完成基于國產(chǎn)全功能GPU千卡集群的3B規模大模型實(shí)訓
                  的頭像 發(fā)表于 05-27 10:59 ?336次閱讀

                  摩爾線(xiàn)程與無(wú)問(wèn)芯穹宣布完成基于GPU千卡集群的3B規模大模型實(shí)訓

                  摩爾線(xiàn)程聯(lián)合無(wú)問(wèn)芯穹宣布,雙方已在本周正式完成基于國產(chǎn)全功能GPU千卡集群的3B規模大模型實(shí)訓。
                  的頭像 發(fā)表于 05-27 10:44 ?214次閱讀
                  摩爾線(xiàn)程與無(wú)問(wèn)芯穹宣布<b class='flag-5'>完成</b>基于<b class='flag-5'>GPU</b><b class='flag-5'>千卡</b><b class='flag-5'>集群</b>的3B規模大<b class='flag-5'>模型</b>實(shí)訓

                  俄羅斯自主芯片遇挫,超半數成廢片

                  摩爾線(xiàn)程是第一家接入無(wú)問(wèn)芯穹并成功完成千卡級別大模型訓練國產(chǎn)GPU公司,“夸娥”(KUAE)集群
                  的頭像 發(fā)表于 04-02 10:27 ?256次閱讀
                  俄羅斯自主芯片遇挫,超半數成廢片

                  潤和軟件與華為昇騰AI完成兼容性測試認證

                  近日,江蘇潤和軟件股份有限公司(以下簡(jiǎn)稱(chēng)“潤和軟件”)基于大模型的AI智能中樞平臺AIRUNS與華為昇騰通過(guò)相互兼容性測試認證。經(jīng)過(guò)嚴格的聯(lián)合測試,潤和軟件AI智能中樞平臺AIRUNS
                  的頭像 發(fā)表于 01-25 16:51 ?630次閱讀

                  HarmonyOS應用兼容穩定性測試

                  測試項的詳細說(shuō)明請參考兼容性測試標準。 兼容性測試支持 TV、智能穿戴 (Wearable)設備和 Phone。 前提條件 ● 已注冊華為開(kāi)
                  發(fā)表于 12-25 10:56

                  運放OPAX192環(huán)路穩定性測試模型建立

                     主要內容:測試OPAX192運放電路的穩定性及其模型建立
                  的頭像 發(fā)表于 11-07 15:41 ?707次閱讀
                  運放OPAX192環(huán)路<b class='flag-5'>穩定性</b><b class='flag-5'>測試</b>與<b class='flag-5'>模型</b>建立

                  芯啟源與龍蜥社區完成兼容性認證

                  近日,芯啟源DPU AgilioPro 系列產(chǎn)品與OpenAnolis龍蜥社區完成兼容性認證。經(jīng)過(guò)在多計算架構上全面的測試之后,芯啟源DPU在性能、功能、穩定性和安全性方面均表現優(yōu)異,
                  的頭像 發(fā)表于 08-15 10:59 ?685次閱讀
                  RM新时代网站-首页

                                RM新时代官方 RM新时代手机版 RM新时代官网 RM新时代官网 RM新时代手机版下载

                                              RM新时代反波胆平台有限公司 RM新时代反波胆33能稳多久 RM新时代平台靠谱平台入口-百度知道 新时代手机平台官网 RM新时代有限公司 RM新时代|官方理财平台 RM新时代反波 rm新时代反波胆平台 RM新时代成立多久了 RM新时代首页