長(zhǎng)江商報(bào) > 股價(jià)飆漲市值逼近蘋果 誰(shuí)還能挑戰(zhàn)英偉達(dá)

股價(jià)飆漲市值逼近蘋果 誰(shuí)還能挑戰(zhàn)英偉達(dá)

2024-03-12 07:58:40 來(lái)源:長(zhǎng)江商報(bào)

長(zhǎng)江商報(bào)消息 當(dāng)?shù)貢r(shí)間上周四美股收盤,英偉達(dá)股價(jià)創(chuàng)歷史新高,市值超2.3萬(wàn)億美元,3月8日盤前又漲超3%,雖然盤中突遭跳水,截至最新收盤,英偉達(dá)報(bào)875.28美元,跌幅5.55%,但這家公司的市值仍高達(dá)2.19萬(wàn)億美元,與蘋果的差距越來(lái)越小。

近段時(shí)間,背靠生成式AI對(duì)GPU算力的大量需求,英偉達(dá)股價(jià)幾乎一路飆漲,多次創(chuàng)歷史新高。但水面之下,對(duì)英偉達(dá)的挑戰(zhàn)從來(lái)不止,一些變化正在發(fā)生。

被視為OpenAI最大競(jìng)爭(zhēng)對(duì)手的Anthropic近日發(fā)布Craude3模型,其最高版本在多項(xiàng)基準(zhǔn)測(cè)試中性能超過(guò)GPT-4。鮮少目光會(huì)注意到,Anthropic背后站著亞馬遜,獲亞馬遜投資后Anthropic用了其自研AI芯片Trainium和Inferentia訓(xùn)練和部署。谷歌等巨頭也在發(fā)力自研AI芯片。

引起波瀾的另一個(gè)事件是,不久前AI芯片初創(chuàng)公司Groq宣稱其LPU(語(yǔ)言處理器)推理性能是英偉達(dá)GPU的10倍,成本僅為其十分之一。一名AI創(chuàng)業(yè)者試用Groq開(kāi)放的產(chǎn)品后向記者感嘆“每秒520個(gè)token(文本單元),非常驚艷”。該芯片采用存算一體(近存計(jì)算)架構(gòu),不完全等同于傳統(tǒng)GPU的馮·諾依曼架構(gòu)。受該芯片推出影響,一名近期獲得融資的國(guó)內(nèi)存算一體企業(yè)負(fù)責(zé)人也告訴記者,業(yè)界對(duì)這種針對(duì)AI的新架構(gòu)芯片關(guān)注度明顯上升了。

芯片架構(gòu)創(chuàng)新和AI巨頭自研的動(dòng)力,構(gòu)成挑戰(zhàn)英偉達(dá)的兩股暗流。談及顛覆或許為時(shí)尚早,但多股利益糾纏下,挑戰(zhàn)不會(huì)停止。

Groq的架構(gòu)“革命”

2016年,英偉達(dá)CEO黃仁勛將第一臺(tái)DGX-1超級(jí)計(jì)算機(jī)交給OpenAI,這臺(tái)超級(jí)計(jì)算機(jī)集成了8塊P100芯片,將OpenAI一年的訓(xùn)練時(shí)間壓縮到一個(gè)月。這是GPU推動(dòng)大模型成型的絕佳案例。此前大模型猛然涌現(xiàn)時(shí),布局高性能計(jì)算并搭建CUDA軟件生態(tài)多年的英偉達(dá)伸手接住風(fēng)口,憑通用性和完善軟件生態(tài)成為AI芯片最大贏家。

但談及其芯片架構(gòu)是否最適合AI運(yùn)算,答案或許并不是。以英偉達(dá)為代表的主流GPU依賴高制程帶來(lái)性能提升,但可見(jiàn)的是,摩爾定律逼近極限,制造更高制程芯片的成本上升,計(jì)算、存儲(chǔ)分離的馮·諾依曼架構(gòu)芯片還面臨內(nèi)存墻和功耗墻,存儲(chǔ)器單元和處理單元之間需要數(shù)據(jù)傳輸,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)有效帶寬。記者此前參加的行業(yè)會(huì)議上,有從業(yè)者統(tǒng)計(jì)了20年間存儲(chǔ)器和處理器性能增長(zhǎng)情況發(fā)現(xiàn),兩者的鴻溝以每年50%的速率擴(kuò)大,比起算力增長(zhǎng),數(shù)據(jù)搬運(yùn)能力增長(zhǎng)速度慢更制約大模型發(fā)展。業(yè)界已在探討如何避開(kāi)馮·諾伊曼架構(gòu)弊端。

既然存儲(chǔ)和處理單元數(shù)據(jù)傳輸存在損耗,那就縮短兩者之間的距離,英偉達(dá)的方法是采用DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)堆疊而成的HBM(高帶寬內(nèi)存)并與GPU一起封裝,使存儲(chǔ)和計(jì)算單元更近,增加存儲(chǔ)密度的同時(shí)減少傳輸損耗,提升帶寬,這正是SK海力士等存儲(chǔ)巨頭的著力方向,但這種方案還受HBM供應(yīng)緊缺限制且依賴臺(tái)積電等先進(jìn)封裝。

要解決內(nèi)存墻還有一種方法,即改變馮·諾依曼架構(gòu),轉(zhuǎn)而采用存算一體架構(gòu),將計(jì)算單元和存儲(chǔ)單元合二為一,這種新架構(gòu)可用于GPU、LPU等多類芯片。Groq的LPU推理芯片是向存算一體架構(gòu)靠近的方案,它還改變了芯片產(chǎn)品模式,采用SRAM(靜態(tài)隨機(jī)存取存儲(chǔ)器)而不用HBM,放大SRAM高存取速度的優(yōu)勢(shì),在芯片制程14nm的情況下,使大模型生成速度近500token/秒,超過(guò)GPU驅(qū)動(dòng)的GPT-3.5的40token/秒。

“以英偉達(dá)H100為例,里面也有一個(gè)SRAM,從HBM進(jìn)來(lái)的數(shù)據(jù)還要到SRAM里走一趟,帶寬大概3.25Tb/秒。Groq這款芯片相當(dāng)于不再單獨(dú)接一個(gè)HBM,內(nèi)部帶寬可以達(dá)80Tb/秒,相比GPU HBM放大了近30倍!鼻究萍级麻L(zhǎng)陳巍告訴記者,Groq團(tuán)隊(duì)從谷歌TPU(張量處理單元)團(tuán)隊(duì)出來(lái),結(jié)合了原來(lái)的TPU架構(gòu)思路、近存計(jì)算和數(shù)據(jù)流架構(gòu),在集群計(jì)算中表現(xiàn)出比較好的性價(jià)比。

這款芯片推出后,以前阿里技術(shù)副總裁賈揚(yáng)清為代表的部分人士根據(jù)Groq LPU較低的內(nèi)存容量與英偉達(dá)H100對(duì)比,認(rèn)為同等吞吐量情況下Groq LPU的硬件成本和能耗高于H100。陳巍聚焦平均計(jì)算成本,量化計(jì)算后則發(fā)現(xiàn)Groq LPU服務(wù)器每token/s、每TOPS BOM模組/計(jì)算卡成本均低于英偉達(dá)H100,這還是在Groq LPU制程遠(yuǎn)不及5nm英偉達(dá)H100的情況下。陳巍告訴記者,Groq LPU采用的已是近存計(jì)算中較成熟的架構(gòu),北美在2019年、2020年就陸續(xù)有可替代GPGPU的新架構(gòu)出來(lái)的消息,Groq這顆芯片推出基本在預(yù)期內(nèi)。一般而言,認(rèn)為存算一體架構(gòu)算力可領(lǐng)先同等工藝邏輯芯片或GPU 4代,12nm或16nm存算一體芯片大約可達(dá)7nm或5nm傳統(tǒng)架構(gòu)GPU的算力。未來(lái)存算一體與現(xiàn)有GPU技術(shù)融合是一個(gè)發(fā)展方向,或?qū)ΜF(xiàn)有傳統(tǒng)GPU形成替代。

國(guó)內(nèi)針對(duì)AI需求也在布局存算一體架構(gòu),記者了解到,千芯科技相關(guān)芯片通過(guò)互聯(lián)網(wǎng)公司內(nèi)測(cè)并在跑大模型,相關(guān)企業(yè)還包括億鑄科技、阿里達(dá)摩院、知存科技、蘋芯科技、后摩智能等,這些企業(yè)聚焦云端、車端或其他邊緣場(chǎng)景。在Groq采用的SRAM外,業(yè)界也在探索ReRAM等密度更高的存儲(chǔ)介質(zhì)方案。

一些海外巨頭則嘗試入場(chǎng)布局存算一體。去年9月,美國(guó)AI芯片初創(chuàng)公司D-Matrix獲1.1億美元B輪融資,微軟和三星出現(xiàn)在投資方名單中,微軟還承諾D-Matrix今年推出芯片時(shí)評(píng)估該芯片供自身使用。另一家在開(kāi)發(fā)數(shù)字存內(nèi)計(jì)算芯片的AI創(chuàng)業(yè)企業(yè)Rain AI此前被OpenAI CEO薩姆·阿爾特曼(Sam Altman)投資100萬(wàn)美元,2019年,OpenAI便與其簽署意向書(shū),計(jì)劃斥資5100萬(wàn)美元購(gòu)買Rain AI的AI芯片。

硅谷巨頭發(fā)力

“受益于英偉達(dá),也受制于英偉達(dá)”可能是硅谷巨頭們過(guò)去一年追逐大模型時(shí)的寫(xiě)照。在AI芯片市場(chǎng)處于領(lǐng)先地位的同時(shí),英偉達(dá)可用于大模型訓(xùn)練推理的GPU產(chǎn)能一度受限且并不便宜。

Meta創(chuàng)始人扎克伯格今年初提到,到今年年底,公司計(jì)算基礎(chǔ)設(shè)施將包括35萬(wàn)張H100顯卡。Raymond James分析師此前表示,英偉達(dá)H100售價(jià)2.5萬(wàn)~3萬(wàn)美元。若按每張H100售價(jià)2.5萬(wàn)美元計(jì)算,Meta這批顯卡價(jià)格將達(dá)數(shù)十億美元。薩姆·阿爾特曼則多次提及AI芯片供需問(wèn)題,近期表示全球需要的人工智能基礎(chǔ)設(shè)施包括晶圓廠產(chǎn)能、能源等比目前人們規(guī)劃的更多。

英偉達(dá)之外,其他廠商近期傳出更多造芯消息。今年2月回應(yīng)OpenAI7萬(wàn)億美元造芯計(jì)劃傳聞時(shí),薩姆·阿爾特曼稱“我們認(rèn)為世界將需要更多AI芯片。AI芯片需全球大量投入,超出我們想象”。有消息也稱軟銀集團(tuán)創(chuàng)始人孫正義正計(jì)劃籌集1000億美元資金來(lái)資助一家芯片企業(yè)。

硅谷科技巨頭更早起步。英偉達(dá)老對(duì)手AMD在GPU領(lǐng)域追趕。亞馬遜有用于AI訓(xùn)練的定制芯片Trainium和AI推理芯片Inferentia,去年Meta發(fā)布了第一代AI推理定制芯片MTIA v1,谷歌則于2017年就推出了TPU,在此基礎(chǔ)上構(gòu)建AI產(chǎn)品。有消息稱,谷歌90%以上AI訓(xùn)練工作都使用TPU,Meta也有計(jì)劃在數(shù)據(jù)中心部署自己的AI芯片,減少對(duì)英偉達(dá)芯片的依賴。

英偉達(dá)基于GPU構(gòu)建的CUDA軟件生態(tài)是其護(hù)城河,但單論一些硬件性能,英偉達(dá)GPU并非不可能超越,多家硅谷巨頭廠商繞開(kāi)GPU領(lǐng)域后已在探索不同路徑。上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授梁曉峣在一場(chǎng)行業(yè)論壇中提到,奠定了英偉達(dá)AI時(shí)代算力基座的V100采用了Tensor Core單元,通過(guò)4×4矩陣塊運(yùn)算,而有廠商用了更大矩陣塊運(yùn)算達(dá)到更高效率和算力,谷歌TPU和特斯拉FSD芯片則用了脈動(dòng)陣列,使芯片更高效。

谷歌TPU、Meta的MTIA v1和Groq LPU均屬于ASIC(專用集成電路)。據(jù)記者了解,GPU作為處理器通用性和靈活性較強(qiáng),但硬件可編程性較弱,ASIC則將算法固定在硬件上,靈活性較差但理論上能耗表現(xiàn)和性能可高于GPU。除以近存計(jì)算克服內(nèi)存帶寬瓶頸,Groq官網(wǎng)還提到,其LPU還旨在克服計(jì)算密度的瓶頸,對(duì)大語(yǔ)言模型而言,LPU計(jì)算能力大于GPU和CPU。

這些ASIC實(shí)際表現(xiàn)如何?PyTorch是可利用英偉達(dá)CUDA加速GPU計(jì)算的深度學(xué)習(xí)框架。一名使用谷歌TPU和英偉達(dá)GPU的研究人員告訴記者,TPU使用的則是JAX框架, JAX本身的軟件開(kāi)源生態(tài)還是比PyTorch差,一些PyTorch已實(shí)現(xiàn)的功能在JAX上還要實(shí)現(xiàn)一遍。當(dāng)正常運(yùn)算時(shí),機(jī)器規(guī)模不大的情況下,英偉達(dá)GPU與谷歌TPU的效果差別不太大,但在機(jī)器規(guī)模增大后,TPU的優(yōu)勢(shì)凸顯,更簡(jiǎn)潔高效,不需額外做太多工程優(yōu)化。

面對(duì)有先發(fā)優(yōu)勢(shì)的英偉達(dá),遷移也是其他AI芯片廠商面臨的挑戰(zhàn)。大模型在其GPU上跑后,若要遷移至其他AI芯片上需要遷移成本,但其他廠商也并非毫無(wú)辦法。以上研究人員表示,用Pythorch寫(xiě)的只適用于CUDA的代碼,此前難以遷移,但PyThorch1.3開(kāi)始提供支持,通過(guò)Pythorch XLA編譯器能較快適配到TPU。這意味著,在英偉達(dá)GPU上跑的大模型若要遷移至TPU,不需重寫(xiě)所有代碼。但目前限制是,經(jīng)遷移的代碼在大規(guī)模集群訓(xùn)練時(shí)可能出現(xiàn)一些問(wèn)題。

在打破英偉達(dá)軟件優(yōu)勢(shì)、讓更多AI芯片廠商入場(chǎng)競(jìng)爭(zhēng)的路上,OpenAI也在努力。OpenAI于2021就發(fā)布了開(kāi)源的Triton1.0,其類似Python,旨在讓沒(méi)有CUDA經(jīng)驗(yàn)的研究人員能高效編寫(xiě)GPU代碼。去年年底AMD發(fā)布會(huì)上,OpenAI宣布Triton從接下來(lái)的3.0版本開(kāi)始支持MI300等AMD生態(tài)。

股價(jià)飆升一定程度上說(shuō)明市場(chǎng)對(duì)英偉達(dá)仍舊看好,但競(jìng)爭(zhēng)不會(huì)停止,望向未來(lái),AI芯片仍具有很多可能性。

(第一財(cái)經(jīng)日?qǐng)?bào))

責(zé)編:ZB

長(zhǎng)江重磅排行榜
視頻播報(bào)
滾動(dòng)新聞
長(zhǎng)江商報(bào)APP
長(zhǎng)江商報(bào)戰(zhàn)略合作伙伴