展會(huì )信息港展會(huì )大全

優(yōu)刻得首個(gè)「國產(chǎn)千卡智算集群」落地,支持智源千億大模型訓練
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-06-28 09:33:30   瀏覽:11286次  

導讀:在人工智能引領(lǐng)的時(shí)代浪潮中,算力已成為技術(shù)進(jìn)步與創(chuàng )新的核心驅動(dòng)力。面對當下AI算力需求的飆升、高端AI芯片供應受限的挑戰,加之OpenAI帶來(lái)的技術(shù)封鎖,唯有堅定不移的發(fā)展自主可控的國產(chǎn)技術(shù)方案,持續壯大國產(chǎn)智算集群規模,才能一路突破圍追堵截,進(jìn)一...

在人工智能引領(lǐng)的時(shí)代浪潮中,算力已成為技術(shù)進(jìn)步與創(chuàng )新的核心驅動(dòng)力。面對當下AI算力需求的飆升、高端AI芯片供應受限的挑戰,加之OpenAI帶來(lái)的技術(shù)封鎖,唯有堅定不移的發(fā)展自主可控的國產(chǎn)技術(shù)方案,持續壯大國產(chǎn)智算集群規模,才能一路突破圍追堵截,進(jìn)一步促進(jìn)國產(chǎn)大模型產(chǎn)業(yè)生態(tài)繁榮。

作為中立、安全的云計算服務(wù)廠(chǎng)商,優(yōu)刻得持續發(fā)力人工智能智算領(lǐng)域,與國內主流AI芯片廠(chǎng)商深度合作,共同搭建的「國產(chǎn)千卡智算集群」現已上線(xiàn)商用。國內頂尖的AI創(chuàng )新型研發(fā)機構北京智源人工智能研究院(下稱(chēng):智源研究院)成為首批用戶(hù),標志著(zhù)優(yōu)刻得自主可控的國產(chǎn)GPGPU算力底座有能力支撐大模型研發(fā)與驗證,雙方在國產(chǎn)AI智算領(lǐng)域的合作正式開(kāi)啟。

國產(chǎn)千卡智算集群,支持千億參數大模型訓推

優(yōu)刻得國產(chǎn)智算集群基于國產(chǎn)通用GPU(GPGPU)所建設,能夠快速構建大規模分布式訓練環(huán)境,可支持超千卡規模、千億參數級別的大模型訓練和推理任務(wù),旨在突破算力瓶頸,加速AI算力的國產(chǎn)化進(jìn)程。

國產(chǎn)千卡智算集群采用軟硬件一體化的架構設計,提供低延遲、高吞吐、高可用的IB組網(wǎng)環(huán)境,支持GDR技術(shù),使得集群在算力獲娶數據傳輸和算力調度等方面具有極高的效率。經(jīng)過(guò)精心適配和調優(yōu),優(yōu)刻得國產(chǎn)智算集群現已在上海青浦智算中心全面部署,智源研究院正基于國產(chǎn)算力更高效地完成大模型的訓推工作。

●突破算力瓶頸,技術(shù)自主可控

基于國內知名AI芯片廠(chǎng)商所自研的高性能GPU IP,優(yōu)刻得國產(chǎn)智算集群具有強大的多精度混合算力、64G大容量高帶寬顯存以及先進(jìn)的多卡互聯(lián)技術(shù),特別適合千億參數AI大模型的訓練和推理,且增強了技術(shù)的自主性。在計算精度、穩定性、易用性和算力利用率等方面,優(yōu)刻得國產(chǎn)智算集群均表現出優(yōu)異特性,助力智源研究院在千億MoE大模型訓練方面取得了顯著(zhù)成效。

智源研究院成立于2018年,其推出的「智源悟道大模型」,是中國首個(gè)大模型,為中國人工智能技術(shù)發(fā)展奠定了深遠的研究基矗在2024北京智源大會(huì )上,智源研究院公布了大模型全家桶。當前,智源研究院正在優(yōu)刻得國產(chǎn)智算集群上持續進(jìn)行更為復雜的模型結構設計和參數調整,以不斷提升大模型迭代速度和自研水平。

優(yōu)刻得首個(gè)「國產(chǎn)千卡智算集群」落地,支持智源千億大模型訓練

展開(kāi)全文

基于全自研的虛擬機技術(shù)和顯卡高效直通技術(shù),優(yōu)刻得國產(chǎn)智算集群還實(shí)現了多用戶(hù)機器隔離和快速處理GPU故障等功能,確保GPU算力的高效利用。目前,優(yōu)刻得國產(chǎn)GPU算力底座不僅提供海量算力支持,有效支撐了智源研究院進(jìn)行國內領(lǐng)先的大模型研發(fā),也進(jìn)一步論證了國產(chǎn)芯片在收斂性上對于千億模型的訓練的有效性,性能比肩國際一流的同類(lèi)GPU產(chǎn)品。

●支持異構混訓,模型研發(fā)更高效

隨著(zhù)多元異構算力成為新的發(fā)展趨勢,當前智源團隊也正致力于研究在多芯片上實(shí)現大模型穩定高效訓練與推理的并行框架,助力國產(chǎn)算力規模應用和大模型成果轉化。智源聯(lián)合優(yōu)刻得、國產(chǎn)芯片廠(chǎng)商,共同探索“混訓集群”的構建,并證實(shí)了優(yōu)刻得國產(chǎn)智算集群與英偉達主流計算平臺混合組網(wǎng)、異構混訓的可行性。

優(yōu)刻得首個(gè)「國產(chǎn)千卡智算集群」落地,支持智源千億大模型訓練

得益于國產(chǎn)AI算力加持,智源研究院基于優(yōu)刻得國產(chǎn)智算集群完成了多元異構大模型訓練平臺的搭建,并在實(shí)訓中實(shí)現了長(cháng)時(shí)間的穩定訓練不中斷。聯(lián)合測試表明,智源研究院推出的開(kāi)源大模型并行訓練框架FlagScale可以支持國產(chǎn)芯片做為算力支撐:FlagScale支持基于國產(chǎn)算力的8x16B千億參數MoE語(yǔ)言大模型1024卡40天以上的穩定訓練,全面幫助用戶(hù)實(shí)現高效穩定的集群管理、資源優(yōu)化、大模型研發(fā)。

●生態(tài)兼容,靈活支撐業(yè)務(wù)發(fā)展

優(yōu)刻得國產(chǎn)智算集群全面兼容CUDA等主流GPU生態(tài)軟件棧,這意味著(zhù)企業(yè)能夠將CUDA應用零成本遷移到國產(chǎn)智算平臺,實(shí)現快速適配。集群還提供了完善高效的軟件棧工具,集成多種主流的深度學(xué)習編程框架,通過(guò)測試驗證,確保了對行業(yè)領(lǐng)先人工智能模型的高效支持,做到開(kāi)箱即用,用戶(hù)可快速投入模型的開(kāi)發(fā)和部署,加速了其在人工智能領(lǐng)域的布局和發(fā)展。

優(yōu)刻得首個(gè)「國產(chǎn)千卡智算集群」落地,支持智源千億大模型訓練

其中,FlagGemm是智源研究院主導開(kāi)發(fā)的一套高性能大模型算子庫,技術(shù)路線(xiàn)上是基于OpenAI Triton編譯器,具有高性能、覆蓋廣、輕量級的多個(gè)優(yōu)勢。優(yōu)刻得國產(chǎn)智算集群通過(guò)適配和支持FlagGemm算子庫,實(shí)現了強大的生態(tài)兼容性和靈活的業(yè)務(wù)支撐能力。

隨著(zhù)OpenAI決定終止對中國大陸的AI服務(wù),國內對于建設自主可控智算平臺的需求愈發(fā)迫切。優(yōu)刻得致力于構建先進(jìn)的AGI算力底座,攜手合作伙伴共建大型國產(chǎn)智算集群,以高性能算力和全棧智算解決方案服務(wù)大模型訓練和推理。隨著(zhù)更多用戶(hù)的入駐和應用深入,優(yōu)刻得國產(chǎn)千卡智算集群將不斷推動(dòng)我國科技創(chuàng )新與智算產(chǎn)業(yè)升級邁向新的高度。

贊助本站

人工智能實(shí)驗室
相關(guān)內容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗室 版權所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責聲明 | 隱私條款 | 工作機會(huì ) | 展會(huì )港