
(原標(biāo)題:大模型需要什么芯片?Transformer發(fā)明人最新預(yù)測(cè))天牛寶
公眾號(hào)記得加星標(biāo),第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。
在最近的Hot Chips大會(huì)上,谷歌 Gemini 的工程副總裁Noam Shazeer發(fā)表了題為“人工智能下一階段的預(yù)測(cè)”的演講。自 2017 年發(fā)明 Transformer 模型以來(lái),他已在 LLM 領(lǐng)域耕耘十年。正如他的幻燈片所述,LLM 可以利用硬件等各種資源來(lái)提升性能和準(zhǔn)確性。
在演講中,Noam Shazeer強(qiáng)調(diào)了幾個(gè)關(guān)鍵點(diǎn)。首先,Noam 認(rèn)為語(yǔ)言建模是有史以來(lái)最好的問(wèn)題。正因如此,演講中有一張幻燈片和一部分內(nèi)容專(zhuān)門(mén)討論了這個(gè)概念。一個(gè)多星期過(guò)去了,看到他對(duì)這個(gè)話題如此熱情,真是令人欣慰。
然后他談到了“LLM 想要什么”。這幾乎讓我想起了我們常說(shuō)的“核心越多越好”。他更關(guān)注的是 FLOPS 越高越好。這一點(diǎn)很重要,因?yàn)殡S著我們獲得更多參數(shù)、更多深度、非線性和信息流,LLM 的規(guī)模會(huì)隨之?dāng)U大,但計(jì)算量也會(huì)隨之增加。更多優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)也有助于創(chuàng)建更好的 LLM。
他還談到,2015年在32塊GPU上進(jìn)行訓(xùn)練是一件大事,但十年后,規(guī)??赡苓_(dá)到數(shù)十萬(wàn)塊GPU。另一個(gè)有趣的趣聞是,他在2018年表示,谷歌打造了用于人工智能的計(jì)算艙(compute pods)。這很重要,因?yàn)樵诖酥埃雀韫こ處熗ǔR谏锨KCPU上運(yùn)行工作負(fù)載,但之后它們會(huì)放慢速度去做其他事情,比如爬取網(wǎng)頁(yè)。擁有專(zhuān)門(mén)用于深度學(xué)習(xí)/人工智能工作負(fù)載的大型機(jī)器,可以實(shí)現(xiàn)巨大的性能提升。
這讓我們看到了芯片會(huì)議上的一張大幻燈片,大模型對(duì)硬件的要求是什么。
這張幻燈片的有趣之處在于,更高的計(jì)算能力、內(nèi)存容量、內(nèi)存帶寬以及更高的網(wǎng)絡(luò)帶寬,對(duì)于驅(qū)動(dòng)未來(lái)幾代人工智能模型都至關(guān)重要?;蛟S我是少數(shù)接受這種觀點(diǎn)的人。在“所有層級(jí)”中,不僅包括 DDR5 容量和帶寬,還包括 HBM 和片上 SRAM。降低精度有助于更好地利用這四種資源,這在很多情況下也被視為好事。確定性有助于改進(jìn)編程。
即使過(guò)了一段時(shí)間再看主題演講,我仍然認(rèn)為,演講的核心思想是:更大、更快的集群將帶來(lái)大模型(LLM)的提升。這對(duì)谷歌和其他一些公司來(lái)說(shuō)可能是件好事。如果你對(duì)“感謝超級(jí)計(jì)算機(jī)!”那張幻燈片感到好奇,那是因?yàn)榧铀倨?、網(wǎng)絡(luò)和集群規(guī)模的增長(zhǎng)直接導(dǎo)致了當(dāng)前的人工智能浪潮比過(guò)去在 32 個(gè) GPU 集群上訓(xùn)練的模型更有用。
坦白說(shuō),我最大的收獲是,一位業(yè)內(nèi)杰出人物認(rèn)為,更多的計(jì)算能力將帶來(lái)更好的人工智能模型??吹接腥藢?duì)語(yǔ)言建模如此熱情,也真是太好了。
值得注意的是,就在六個(gè)月前,黃仁勛還談到到2028年數(shù)據(jù)中心資本支出將達(dá)到1萬(wàn)億美元甚至更多。在英偉達(dá)最近的財(cái)報(bào)電話會(huì)議上,黃仁勛預(yù)計(jì)未來(lái)五年人工智能基礎(chǔ)設(shè)施支出將達(dá)到3萬(wàn)億至4萬(wàn)億美元!對(duì)于一個(gè)本已龐大的市場(chǎng)來(lái)說(shuō),這無(wú)疑是一個(gè)驚人的增長(zhǎng)率。這是我們一生中難得一見(jiàn)的淘金熱。
讓我們更深入地了解為什么大模型(LLM)對(duì)計(jì)算和連接能力如此渴求,以及那些似乎能提供更多、更多、更多選擇的選擇。新想法層出不窮。
大模型正在推動(dòng)數(shù)據(jù)中心的發(fā)展
ChatGPT、Claude、Gemini、Llama 和其他 LLM 模型是數(shù)據(jù)中心資本支出驚人增長(zhǎng)的幕后推手。這些模型被稱為基礎(chǔ)模型,因?yàn)樗鼈兡軌驇?lái)最佳效果。年度經(jīng)常性收入 (ARR) 正在呈指數(shù)級(jí)增長(zhǎng)。OpenAI 的 ARR 在 2025 年初為每年 50 億美元,到 2025 年中期翻了一番,達(dá)到每年 100 億美元以上。Anthropic 的 ARR 從 2025 年初的每年 10 億美元增長(zhǎng)了 5 倍,到 2025 年中期達(dá)到每年 50 億美元。
Gemini(谷歌)和 Llama(Meta)也在快速發(fā)展。它們使用大量參數(shù),上下文窗口大?。P鸵淮慰梢浴坝涀 钡?token 文本量,這限制了可處理的文檔或代碼的大小)不斷增長(zhǎng),并且 KV 緩存需求也在不斷增長(zhǎng)(token 一次生成一個(gè);KV 緩存存儲(chǔ)并重用先前 token 的鍵和值向量,而不是為每個(gè)新 token 重新計(jì)算它們)。深度研究模式要求模型“思考更長(zhǎng)時(shí)間”以進(jìn)行改進(jìn),并要求其他模型檢查初步結(jié)果,以獲得更徹底的分析和更準(zhǔn)確的結(jié)果。所有這些都推動(dòng)了對(duì)更多硬件的需求。
盡管復(fù)雜性和計(jì)算量大幅增加,但每個(gè)查詢的成本卻在下降,這推動(dòng)了對(duì)更多查詢的需求。
這些 LLM 模型雖然簡(jiǎn)單易用,但要充分發(fā)揮其潛力卻并非易事??焖俟こ淌菍?zhuān)家們的新領(lǐng)域,他們能夠以最高效的方式利用這些模型獲得最佳結(jié)果。
最近有一篇文章提到,大型企業(yè)超過(guò)90%的人工智能實(shí)驗(yàn)都失敗了。這并不意味著它不起作用。這意味著存在一個(gè)學(xué)習(xí)曲線,有些公司比其他公司更快地掌握了它。競(jìng)爭(zhēng)優(yōu)勢(shì)將轉(zhuǎn)移到快速學(xué)習(xí)者身上。Salesforce剛剛宣布裁減4000個(gè)客服崗位,因?yàn)槿斯ぶ悄芸头梢詣偃嗡麄兊墓ぷ鳌F渌恍┕颈硎?,人工智能工具將提高生產(chǎn)力,并減少未來(lái)大量招聘的需求。
訓(xùn)練 LLM 的硬件要求與推理截然不同。例如,訓(xùn)練過(guò)程中需要用到的 GPU 數(shù)量要多得多,通??缭蕉鄠€(gè)數(shù)據(jù)中心,而“全收集”(all-gather)周期意味著數(shù)千個(gè) GPU 處于空閑狀態(tài),等待最后一個(gè) GPU 報(bào)告結(jié)果。
網(wǎng)絡(luò)對(duì)于訓(xùn)練至關(guān)重要。推理需要的 GPU 更少,但需要同時(shí)處理更多的模型。過(guò)去,訓(xùn)練消耗了大部分?jǐn)?shù)據(jù)中心資源,但現(xiàn)在 ChatGPT 和其他應(yīng)用的需求激增,推理工作負(fù)載將在未來(lái)占據(jù)主導(dǎo)地位。未來(lái)幾年,推理工作負(fù)載和訓(xùn)練工作負(fù)載的比例可能會(huì)達(dá)到 80%。
并非所有大模型 (LLM) 都屬于前沿領(lǐng)域。許多公司會(huì)構(gòu)建自己的模型天牛寶,用于特定用途。例如,如果你是像博世這樣的公司,擁有多種電器產(chǎn)品和負(fù)責(zé)處理問(wèn)題的呼叫中心,你可以基于所有公開(kāi)和內(nèi)部文檔訓(xùn)練一個(gè)模型,這樣你的呼叫中心人員就能更快地找到正確答案。既然你可以選擇一個(gè)規(guī)模更小、更便宜、真正了解你需求的模型,為什么還要花錢(qián)購(gòu)買(mǎi)一個(gè)精通莎士比亞和中文的前沿領(lǐng)域模型呢?
Sebastian Raschka 的《Build an LLM from Scratch》是一本深入講解 LLM 細(xì)節(jié)的好書(shū)。你可以在亞馬遜上買(mǎi)到。我現(xiàn)在正在努力讀這本書(shū),以便更好地理解 LLM 架構(gòu)如何驅(qū)動(dòng)硬件需求。
我最近聽(tīng)說(shuō)了一種新型大型語(yǔ)言模型——擴(kuò)散大模型 (Diffusion LLM)。Mercury Coder 聲稱其性能(每秒處理tokens數(shù))提高了 5 到 10 倍。我最近遇到的一位風(fēng)險(xiǎn)投資家告訴我,AMD 在 GPU 銷(xiāo)售方面的初步成功與此有關(guān),因?yàn)檫@些模型不需要那么多 GPU。因此,AMD 目前在大規(guī)模擴(kuò)展方面的劣勢(shì)并不成問(wèn)題。您可以通過(guò)谷歌搜索“What is Diffusion LLM and what it matters”(作者:Zheng “Bruce” Li)了解更多信息。
更高的 PetaFlops
(PFlop = 每秒 1 千萬(wàn)億次浮點(diǎn)運(yùn)算)
這是大多數(shù)人最了解的 AI 硬件部分——由 Nvidia GPU 和現(xiàn)在的 AMD GPU 提供的巨大計(jì)算能力,以及超大規(guī)模廠商制造的定制加速器。
Nvidia 在最近的財(cái)報(bào)電話會(huì)議上披露,其數(shù)據(jù)中心收入的一半以上來(lái)自三家公司——可能是亞馬遜 AWS、谷歌云和微軟。這三家公司每年購(gòu)買(mǎi)的 Nvidia GPU 價(jià)值超過(guò) 100 億美元。他們有能力構(gòu)建自己的定制加速器(即使每年花費(fèi) 5 億美元左右)。
超大規(guī)模企業(yè)(和 OpenAI)正在構(gòu)建自己的定制加速器,原因有二:
他們可以利用利潤(rùn)率低于 Nvidia 的 ASIC 公司來(lái)削減成本,并在談判中獲得優(yōu)勢(shì),并且他們了解他們的 LLM 模型和需求,并可以優(yōu)化他們的硬件。
超大規(guī)模計(jì)算平臺(tái)運(yùn)行著大量為 Pytorch 編寫(xiě)的客戶工作負(fù)載,而這些工作負(fù)載目前僅與 Nvidia 和最近的 AMD GPU 兼容。即使擁有出色的定制加速器,他們也需要為這些工作負(fù)載購(gòu)買(mǎi) GPU,但他們會(huì)受到激勵(lì),盡可能地將業(yè)務(wù)交給 AMD,從而在 GPU 價(jià)格上形成競(jìng)爭(zhēng)。
一些勇敢的初創(chuàng)公司獲得了資助,例如 D-Matrix 和 Positron,它們構(gòu)建了針對(duì)本地小型 LLM 等利基市場(chǎng)優(yōu)化的數(shù)據(jù)中心 AI 計(jì)算。
更大的內(nèi)存容量和帶寬(所有層級(jí))
當(dāng)您看到 AI 加速器的“芯片照片”時(shí),您總會(huì)發(fā)現(xiàn) GPU 芯片至少兩側(cè)都帶有 HBM(高帶寬存儲(chǔ)器)。HBM 到 GPU 的連接非常寬,速度也非???。如果沒(méi)有 HBM,GPU 就會(huì)面臨數(shù)據(jù)匱乏的問(wèn)題,這就是為什么 HBM 的每位成本比 DDR DRAM 高出約 10 倍的原因。HBM 堪稱工程奇跡。它們已經(jīng)擁有 16 層高的堆棧!而且,HBM 還通過(guò)增加連接數(shù)量和提高每個(gè)連接的數(shù)據(jù)速率來(lái)持續(xù)提升帶寬。
正如一位內(nèi)存專(zhuān)家向我指出的那樣,加速器上內(nèi)存的晶體管數(shù)量比GPU還要多(看看各自的面積,記住每個(gè)HBM最多有16個(gè)芯片,所以總的內(nèi)存硅片面積比邏輯面積要大)。將HBM與GPU集成在硅中介層上,最初推動(dòng)了臺(tái)積電的多芯片封裝??紤]到HBM已經(jīng)取得的進(jìn)展,繼續(xù)提升容量和帶寬似乎有些困難,但這涉及的資金巨大,所以我預(yù)計(jì)我們會(huì)看到進(jìn)一步的創(chuàng)新。
有趣的是,有傳言稱 OpenAI 將使用 8-high HBM 進(jìn)行推理。帶寬比容量更重要,而 8-high 的單位容量帶寬更高。
由于內(nèi)存需求巨大——數(shù)十億個(gè)權(quán)重、不斷增長(zhǎng)的上下文窗口、不斷增長(zhǎng)的鍵值緩存(KV Cache)大小——因此,內(nèi)存層次結(jié)構(gòu)應(yīng)運(yùn)而生,其中最常用的鍵值(KVs)存儲(chǔ)在 HBM 中。其他鍵值則根據(jù)相對(duì)需求存儲(chǔ)在更遠(yuǎn)的內(nèi)存中。這讓人想起 CPU 的 L1/L2/L3 緩存。這正是 Nvidia 的 Dynamo 分布式鍵值緩存管理器所做的,它將鍵值分配給 HBM、DRAM 或 NVMe。智能分配可以顯著提高tokens/美元的價(jià)值。
如今,DRAM 連接到 GPU 所連接的 CPU(通常每個(gè) CPU 連接兩個(gè) GPU)。CPU DRAM 和 GPU 之間通過(guò) PCIe 的數(shù)據(jù)傳輸速率相對(duì)較慢。Eliyan 建議將定制 HBM 的背面連接到 LPDDR(比 DDR 功耗更低),以便為加速器中的 DRAM 提供更高的帶寬。
最后,最近幾個(gè)月我聽(tīng)到了“內(nèi)存設(shè)備”(memory appliance)這個(gè)詞。它的想法是使用比HBM便宜得多的DRAM構(gòu)建一個(gè)大型內(nèi)存池,并與GPU pod建立高帶寬連接。
Enfabrica 最近宣布推出用于 LLM 推理的內(nèi)存結(jié)構(gòu)系統(tǒng)。該系統(tǒng)以 400/800 Gb/秒的數(shù)據(jù)傳輸速率連接到 CPU CXL 接口,每個(gè)節(jié)點(diǎn)可提供高達(dá) 18 TB 的 DDR5 DRAM。
更多網(wǎng)絡(luò)帶寬(所有層級(jí))
人工智能數(shù)據(jù)中心中有多個(gè)網(wǎng)絡(luò)——縱向擴(kuò)展(scale up)、橫向擴(kuò)展(scale out),在 Hot Chips 上我聽(tīng)說(shuō)了 Nvidia 的橫向擴(kuò)展網(wǎng)絡(luò)。
在“過(guò)去”,比如五年前,以太網(wǎng)連接著數(shù)據(jù)中心的一切。機(jī)架上的每個(gè)插槽都連接到TOR(機(jī)架頂部路由器/交換機(jī)),TOR又依次連接到所有其他TOR,然后再連接到更高級(jí)別的交換機(jī)。
網(wǎng)絡(luò)創(chuàng)新現(xiàn)在非常猖獗,因?yàn)樵?GPU 上運(yùn)行 Frontier LLM 需要在數(shù)百或數(shù)千個(gè) GPU 上進(jìn)行非??焖?、非常高帶寬的傳輸。
Google 在 Hot Interconnects 大會(huì)上展示了訓(xùn)練和網(wǎng)絡(luò)解決方案的挑戰(zhàn)。訓(xùn)練需要數(shù)千個(gè)加速器協(xié)同工作。訓(xùn)練過(guò)程在各個(gè)加速器之間進(jìn)行,但所有加速器需要定期共享結(jié)果以同步權(quán)重。最后一個(gè)響應(yīng)的加速器會(huì)保持所有其他加速器的加速。這被稱為 100百分位的尾部延遲。理想的訓(xùn)練網(wǎng)絡(luò)是可調(diào)度且可預(yù)測(cè)的。Firefly 充當(dāng)通用節(jié)拍器(metronome),提供跨整個(gè)數(shù)據(jù)中心同步的 10 納秒以下的時(shí)鐘!
谷歌的另一項(xiàng)創(chuàng)新是 Falcon,它集成在英特爾 SmartNIC E2100 中。它啟用了一個(gè)“定時(shí)輪”(timing wheel),可以調(diào)整數(shù)據(jù)包輸入網(wǎng)絡(luò)的速度,以減少擁堵,就像大型城市高速公路上的綠燈/紅燈一樣。
在以太網(wǎng)領(lǐng)域,博通的Tomahawk芯片堪稱王者,它被廣泛應(yīng)用于大多數(shù)交換機(jī),例如市場(chǎng)領(lǐng)導(dǎo)者Arista的交換機(jī)。在Hot Chips大會(huì)上,博通表示,Tomahawk Ultra現(xiàn)已上市,每款產(chǎn)品配備512個(gè)100G-PAM4端口。Tomahawk Ultra將為橫向擴(kuò)展網(wǎng)絡(luò)提供更快的超級(jí)以太網(wǎng)交換機(jī)。
博通 (Broadcom) 也在推廣用于擴(kuò)展網(wǎng)絡(luò) (SUE = 擴(kuò)展以太網(wǎng)) 的 Tomahawk Ultra。NVLink 僅與 Nvidia 合作,盡管他們表示愿意讓其他 AI 加速器使用其專(zhuān)有接口進(jìn)行連接——但迄今為止,尚無(wú)任何人宣布這樣做的計(jì)劃。
Tomahawk Ultra SUE 是目前唯一針對(duì)非 Nvidia 廠商的擴(kuò)展解決方案。Tomahawk SUE 添加了鏈路層重試。之前丟棄的數(shù)據(jù)包在堆棧的更高層處理,延遲要長(zhǎng)得多。鏈路層重試在 UALink 中,可能也在 NVLink 中。還添加了基于信用的流量控制——就像在 UALink 規(guī)范中一樣。還添加了其他幾個(gè)用于擴(kuò)展的功能。延遲比 UALink 高,但差別不大(250 納秒 vs 200 納秒),至少根據(jù)幻燈片顯示是這樣。博通暗示,他們有客戶正在設(shè)計(jì) 1K 甚至 2K GPU 的 pod,并且正在考慮使用兩層交換機(jī)。
其他專(zhuān)注于擴(kuò)大規(guī)模的交換機(jī)廠商包括 Marvell、Astera Labs 以及 Xconn 等初創(chuàng)公司。
UALink 是 AMD 和其他公司正在為非 Nvidia 生態(tài)系統(tǒng)推廣的擴(kuò)展互連技術(shù)。UALink 規(guī)范非常詳細(xì),長(zhǎng)達(dá)數(shù)百頁(yè)。多家公司正在實(shí)施該規(guī)范。目前尚未有公司宣布全面上市。UALink 的設(shè)計(jì)目標(biāo)是連接多達(dá) 1,024 個(gè) GPU(但能否實(shí)現(xiàn)取決于互連技術(shù)。銅纜無(wú)法實(shí)現(xiàn)這一點(diǎn))。
超大規(guī)模加速器定制化縱向擴(kuò)展互連市場(chǎng)也存在。有傳言稱,AWS 希望為其 Trainum 加速器的縱向擴(kuò)展戰(zhàn)略優(yōu)化交換機(jī)。
華為也出席了Hot Chips大會(huì)。根據(jù)美國(guó)現(xiàn)行法規(guī),他們無(wú)法使用最新的英偉達(dá)技術(shù)。他們提出了一種基于以太網(wǎng)的統(tǒng)一總線,該總線無(wú)需協(xié)議轉(zhuǎn)換,從而降低了網(wǎng)絡(luò)延遲。
谷歌的TPU采用了截然不同的網(wǎng)絡(luò)方案。在Hot Chips大會(huì)上,他們介紹了全新的Ironwood TPU及其互連方案。
Google TPU 從一開(kāi)始就采用超立方體互連。每個(gè) TPU 都有 6 個(gè)高速互連。在最簡(jiǎn)單的超立方體中,TPU 以 2 x 2 x 2 的立方體形式連接。每個(gè) TPU 都連接到 X、Y 和 Z 維度上的相鄰 TPU。在 2 x 2 x 2 立方體中,所有 TPU 都直接連接到其他所有 TPU。在更大的超立方體中,TPU 之間存在多跳。TPU 配置可動(dòng)態(tài)調(diào)整,以適應(yīng)最多 8,192 個(gè) TPU 的模型規(guī)?!,F(xiàn)在,如上所示,機(jī)架間連接采用可插拔光纖,并添加了一個(gè)光開(kāi)關(guān),用于連接到所有 TPU 共享的超大內(nèi)存池。
“跨規(guī)模網(wǎng)絡(luò)”(Scale-across networking )是一個(gè)新術(shù)語(yǔ),我第一次聽(tīng)到它是在 Nvidia 的 Hot Chips 演講“Co-Packaged Silicon Photonics Switches for Gigawatt AI Factories.”中。這是共封裝光學(xué)器件 (CPO) 的首次部署。正如他們所解釋的,CPO 的目的是與可插拔光學(xué)器件相比大幅降低功耗。功耗是數(shù)據(jù)中心的一個(gè)關(guān)鍵限制因素。節(jié)省的每一瓦功耗都意味著可以在給定的數(shù)據(jù)中心功耗預(yù)算內(nèi)安裝更多的 GPU。光學(xué)器件的另一個(gè)優(yōu)勢(shì)是,相距數(shù)公里的數(shù)據(jù)中心內(nèi)的交換機(jī)可以互操作。這通常是訓(xùn)練日益龐大的 Frontier LLM 所必需的。
他們展示了其新交換機(jī)與現(xiàn)成以太網(wǎng)交換機(jī)的比較數(shù)據(jù),結(jié)果顯示相距 10 公里的帶寬增加了一倍,特別是對(duì)于非常大的消息大小而言。
對(duì)于能夠創(chuàng)新并提供更高計(jì)算能力、更大內(nèi)存、更大帶寬(且成本和功耗具有競(jìng)爭(zhēng)力)的解決方案的半導(dǎo)體和系統(tǒng)公司來(lái)說(shuō),這無(wú)疑是一場(chǎng)“淘金熱”。至少在未來(lái)十年內(nèi),市場(chǎng)增長(zhǎng)仍將保持驚人的勢(shì)頭。贏家能夠快速發(fā)展,規(guī)模巨大。
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4151期內(nèi)容,歡迎關(guān)注。
加星標(biāo)第一時(shí)間看推送,小號(hào)防走丟
求推薦
順發(fā)配資提示:文章來(lái)自網(wǎng)絡(luò),不代表本站觀點(diǎn)。