導(dǎo)讀:英偉達(dá)發(fā)布L40S GPU,將促進(jìn)AI算力提升,進(jìn)一步加大云廠商的采購,未來或?qū)?huì)對中高速光模塊市場帶來需求,國內(nèi)中高端數(shù)通市場的龍頭廠商中際旭創(chuàng)以及光模塊領(lǐng)域的龍頭新易盛等,海信,華工科技,劍橋科技等企業(yè),在未來均能切入增量云計(jì)算/AI等領(lǐng)域,提升公司產(chǎn)品發(fā)展?jié)摿Α?/p>
8/16/2023,光纖在線訊,在近日舉辦的SIGGRAPH 2023上,NVIDIA 宣布推出全新的 NVIDIAL40S GPU 以及搭載L40S的 NVIDIA OVX 服務(wù)器。根據(jù)資料顯示,這款GPU以及OVX服務(wù)器,適用于人工智能大模型訓(xùn)練和推理、三維設(shè)計(jì)和可視化、視頻處理、工業(yè)數(shù)字化等用途,能夠幫助機(jī)構(gòu)企業(yè)和數(shù)據(jù)中心增強(qiáng)生成式AI、圖形和視頻處理能力,滿足不斷增長的算力需求。
L40S GPU 和OVX 服務(wù)器主要針對生成式人工智能模型的訓(xùn)練和推理環(huán)節(jié),且有望進(jìn)一步提升生成式人工智能模型的訓(xùn)練和推理效率。
根據(jù)公開資料顯示,英偉達(dá)全新的L40S GPU加速卡是L40的升級(jí)版,這款GPU基于Ada Lovelace架構(gòu),包含第四代Tensor Core以及FP8轉(zhuǎn)換引擎,運(yùn)算速度可達(dá)1.45 PFlops。此外,L40S GPU包含18176個(gè)CUDA核心,可提供近5倍的單精度浮點(diǎn)運(yùn)算(FP32)性能(91.6 TFlops),幾乎是英偉達(dá)A100 GPU的5倍。由于這款加速卡不支持NVLink,且沒有選擇采用HBM顯存,而是采用GDDR6 ECC顯存,因此L40S相比A100、H100更加適用于邊緣運(yùn)算。
其區(qū)別主要體現(xiàn)在:
(1)L40S采用較為成熟的GDDR6顯存,相比A100與H100使用的 HBM 顯存,在顯存帶寬上有所降低,但技術(shù)更成熟,市場供應(yīng)較為充足。
(2)L40S 在 FP16 算力(智能算力)上較 A100 有所提高,在 FP32 算力(通用算力)上較 A100 提高明顯,更適應(yīng)科學(xué)計(jì)算等場景。
(3)L40S 在功率上較 A100 有所降低,有利于降低數(shù)據(jù)中心相關(guān)能耗。
(4)根據(jù) Super Micro 的數(shù)據(jù),L40S 在性價(jià)比上較 A100 更有優(yōu)勢。
與 A100 類似,L40S 通過 16 通道的 PCIe Gen 4 接口與 CPU 進(jìn)行通信,最大雙向傳輸速率為 64 GB/s。相比之下,NVIDIA Grace Hopper 通過 NVLink-C2C 技術(shù)將 Hopper 架構(gòu)的 GPU 與 Grace 架構(gòu)的 CPU 相連,在 CPU 到 GPU、GPU 到 GPU 間實(shí)現(xiàn) 900 GB/s 的總帶寬,較 PCIe Gen 5 快 7 倍。
上海證券的分析師劉京昭認(rèn)為:
(1)由于PCIe Gen4接口的限制,L40S在GPU網(wǎng)絡(luò)計(jì)算上的應(yīng)用有所限制,因此對目前800G光模塊的需求量影響有限。
(2)相較于A100,L40S在部分面向生成式人工智能模型的應(yīng)用場景下有計(jì)算效率上的優(yōu)勢,且更具性價(jià)比。
(3)相較于A100,L40S使用GDDR6等相對成熟技術(shù),有助于確保上游供應(yīng)的穩(wěn)定。
(4)L40S的前述優(yōu)勢可能促使下游云廠商加大采購,或?qū)橐?00G和400G光模塊為代表的中高速光模塊帶來新的增長空間。
英偉達(dá)發(fā)布L40S GPU,或?qū)⒋偈笰I算力提升,進(jìn)一步加大下游云廠商的采購,未來或?qū)?huì)對中高速光模塊市場帶來需求,國內(nèi)中高端數(shù)通市場的龍頭廠商中際旭創(chuàng)以及光模塊領(lǐng)域的龍頭新易盛等,海信,華工科技,劍橋科技等企業(yè),在未來均能切入增量云計(jì)算/AI等領(lǐng)域,提升公司產(chǎn)品發(fā)展?jié)摿Α?
光纖在線公眾號(hào)
更多猛料!歡迎掃描左方二維碼關(guān)注光纖在線官方微信