Takzvané „horúce čipy“ NVIDIA sú v skutočnosti „horúce platformy“

Sep 03, 2024

Zanechajte správu

NVIDIA sa zameriava na inžinierske projekty na úrovni systému a dátových centier zamerané na vytváranie pokročilých systémov a platforiem schopných zvládnuť zložité generatívne výzvy AI.

Začiatkom tohto mesiaca sa NVIDIA stretla so zriedkavými zlými správami, keď sa objavili správy, že veľmi očakávané „Blackwell“ GPU akcelerátory spoločnosti môžu byť oneskorené až o tri mesiace kvôli konštrukčným chybám. Hovorca NVIDIA však uviedol, že všetko prebieha podľa plánu. Niektorí dodávatelia uviedli, že sa nič nezmenilo, zatiaľ čo iní zaznamenali bežné oneskorenia.

Odborníci z odvetvia očakávajú, že keď spoločnosť NVIDIA budúcu stredu oznámi svoje finančné výsledky za Q2 FY2025, používatelia získajú viac informácií o stave spoločnosti Blackwell.

Uvádza sa, že čipy Blackwell-B100, B200 a GB200-budú vrcholom tohtoročnej konferencie Hot Chips, ktorá sa bude konať budúci týždeň na Stanfordskej univerzite v Kalifornii. NVIDIA predstaví svoju architektúru, podrobne popíše niektoré nové inovácie, načrtne využitie AI pri navrhovaní čipov a bude diskutovať o výskume kvapalného chladenia v dátových centrách používaných na spustenie týchto rastúcich úloh AI. Podľa riaditeľa NVIDIA pre produkty Accelerated Computing Products, Davea Salvatora, spoločnosť tiež predstaví čipy Blackwell, ktoré už fungujú v jednom z jej dátových centier.

Blackwell chips

▲ Čipy Blackwell

Veľa z toho, o čom NVIDIA diskutuje o Blackwell, je už známe, ako napríklad Blackwell Ultra GPU, ktorý bude uvedený na trh budúci rok, a nová generácia Rubin GPU a Vera CPU sa začnú uvádzať na trh v roku 2026. Salvator však zdôraznil, že keď hovoríme o Blackwell, je dôležité pozerať sa naň skôr ako na platformu než ako na jediný čip. Salvator to uviedol na brífingu pre novinárov a analytikov tento týždeň v rámci príprav na Hot Chips.

„Keď sa zamyslíte nad NVIDIA a platformami, ktoré budujeme, GPU, sieťovanie a dokonca aj náš CPU sú len začiatok,“ povedal. „Vykonávame inžinierstvo na úrovni systému a dátových centier, aby sme vytvorili tieto systémy a platformy, ktoré dokážu skutočne vyjsť v ústrety a vysporiadať sa s týmito skutočne náročnými generatívnymi výzvami AI. Videli sme, že rozsah modelov v priebehu času rastie a väčšina generatívnych aplikácií AI je potrebné bežať v reálnom čase, pričom požiadavky na odvodzovanie sa v posledných rokoch dramaticky zvyšujú.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

To zahŕňa nielen GPU Blackwell a CPU Grace, ale aj čipy NVLink Switch, Bluefield{0}} DPU, ConnextX-7 a ConnectX-8 NIC, Spectrum-4 ethernetové prepínače a Quantum -3 Prepínače InfiniBand. Salvator tiež poskytol rôzne prehľady pre NVLink Switch (nižšie), compute, Spectrum-X800 a Quantum-X800.

NVIDIA predstavila dlho očakávanú architektúru Blackwell na svojej konferencii GTC 2024 v marci tohto roku, pričom sa rýchlo prihlásili hyperškáloví predajcovia a OEM. Spoločnosť sa zameriava na rýchlo sa rozširujúcu generatívnu oblasť AI, kde sa veľké jazykové modely (LLM) stávajú ešte masívnejšími. Llama 3.1 od spoločnosti Meta, uvedená na trh v júni, je dôkazom tohto trendu a predstavuje model s 4,05 bilióna parametrov. Salvator poznamenal, že ako sa LLM zväčšujú, dopyt po odvodzovaní v reálnom čase pretrváva, čo si vyžaduje viac výpočtov a nižšiu latenciu, čo si vyžaduje platformový prístup.

„Rovnako ako u väčšiny ostatných LLM sa očakáva, že služby poháňané týmto modelom budú bežať v reálnom čase. Aby ste to dosiahli, potrebujete viacero GPU. Výzvou je, ako dosiahnuť obrovskú rovnováhu medzi vysokým výkonom GPU, vysokým využitím GPU a poskytovaním dobrej používateľskej skúsenosti pre koncových používateľov využívajúcich tieto služby riadené AI,“ povedal.

Need for Speed

S Blackwell NVIDIA zdvojnásobila šírku pásma každého prepínača a zvýšila ju z 900 GB/s na 1,8 TB/s. Technológia Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) spoločnosti prináša viac výpočtovej techniky do systémov, ktoré sa skutočne nachádzajú v prepínačoch. Umožňuje nám to stiahnuť niektoré úlohy z GPU, aby sme pomohli zrýchliť výkon a tiež pomáha hladiť sieťovú prevádzku cez štruktúru NVLink. Toto sú inovácie, ktoré naďalej riadime na úrovni platforiem.

Viacuzlový GB200 NVL72 je kvapalinou chladené šasi, ktoré spája 72 GPU Blackwell a 36 CPU Grace v rackovom dizajne. NVIDIA tvrdí, že poskytuje vyšší výkon odvodenia pre LLM s biliónom parametrov, ako je GPT-MoE-1.8T, efektívne fungujúci ako jediný GPU. Jeho výkon je 30-krát vyšší ako u systému HGX H100, pričom rýchlosť tréningu je štyrikrát rýchlejšia ako pri H100.

NVIDIA tiež pridala natívnu podporu pre FP4 pomocou Quasar Quantization System spoločnosti, ktorý poskytuje rovnakú presnosť ako FP16 a zároveň znižuje využitie šírky pásma o 75 %. Quasar Quantization System je softvér, ktorý využíva Blackwell's Transformer Engine na zabezpečenie presnosti. Salvator to demonštroval porovnaním generatívnych obrázkov AI vytvorených pomocou FP4 a FP16, s malým alebo žiadnym rozdielom medzi týmito dvoma.

Pomocou FP4 môžu modely využívať menej pamäte a dosahovať ešte lepší výkon ako FP8 v GPU Hopper.

Kvapalinové chladiace systémy

Pokiaľ ide o kvapalinové chladenie, NVIDIA predstaví teplovodnú priamu metódu chip-to-chip, ktorá dokáže znížiť spotrebu energie dátového centra o 28 %.

Salvator povedal: "Čo je zaujímavé na tejto metóde, sú niektoré z jej výhod, medzi ktoré patrí zvýšená účinnosť chladenia, nižšie prevádzkové náklady, predĺžená životnosť servera a potenciál opätovného využitia zachyteného tepla na iné účely. Rozhodne pomáha zlepšiť účinnosť chladenia. Jedna z spôsob, ako to dosiahnuť, ako naznačuje názov, je, že tento systém v skutočnosti nepoužíva chladiče. Ak sa zamyslíte nad tým, ako funguje chladnička, funguje to celkom dobre „Nemusíme používať chladiče, čo nám šetrí energiu a znižuje prevádzkové náklady.“

Ďalšou témou je, ako NVIDIA využíva AI na navrhovanie svojich AI čipov pomocou Verilog, jazyka na popis hardvéru, ktorý sa používa už štyridsať rokov na opis obvodov v kóde. NVIDIA napreduje v tomto úsilí prostredníctvom autonómneho agenta Verilog s názvom VerilogCoder.

AI chips

Povedal: "Naši výskumníci vyvinuli veľký jazykový model, ktorý môže urýchliť vytváranie kódu Verilog, ktorý popisuje naše systémy. Použijeme ho v budúcich generáciách produktov, aby sme pomohli vytvoriť tieto kódy. Dokáže veľa vecí. Môže pomôcť urýchliť proces návrhu a overovania Môže urýchliť manuálne operácie návrhu a zásadne automatizovať mnohé úlohy.“