Nalazite se
Članak
Objavljeno: 03.12.2025. 18:38

Nvidia 

MoE modeli rade 10 puta brže na Nvidia Blackwell NVL72

Kimi K2 Thinking, DeepSeek-R1, Mistral Large 3 i drugi modeli rade 10 puta brže na Nvidijinom GB200 NVL72 superračunalu u racku.

MoE modeli rade 10 puta brže na Nvidia Blackwell NVL72

Baš kao što mozak aktivira određene regije na temelju zadatka, MoE (mixture of experts) modeli dijele posao među specijaliziranim "stručnjacima", aktivirajući samo one relevantne za svaki AI token. To rezultira bržim i učinkovitijim generiranjem tokena bez proporcionalnog povećanja računalnih resursa.

Industrija je već prepoznala ovu prednost. Na neovisnoj ljestvici vodećih modela umjetne analize (AA), 10 najinteligentnijih modela otvorenog koda koristi MoE arhitekturu, uključujući DeepSeek AI-jev DeepSeek-R1, Moonshot AI-jev Kimi K2 Thinking, OpenAI-jev gpt-oss-120B i Mistral AI-jev Mistral Large 3 model.

Međutim, skaliranje MoE modela u produkciji uz istovremeno postizanje visokih performansi izuzetno je teško. Ekstremni kodni dizajn Nvidia GB200 NVL72 sustava kombinira hardverske i softverske optimizacije za maksimalne performanse i učinkovitost, što skaliranje MoE modela čini praktičnim i jednostavnim.

Nvidia kaže da Kimi K2 Thinking MoE model, rangiran kao najinteligentniji model otvorenog koda na AA ljestvici, bilježi 10 puta bolji učinak na Nvidia GB200 NVL72 rack platformi u usporedbi s Nvidia HGX H200. Nadovezujući se na performanse modela DeepSeek-R1 i Mistral Large 3 MoE, ovaj proboj naglašava kako MoE postaje glavna arhitektura za 'frontier' modele.

Do nedavno, industrijski standard za izgradnju pametnije umjetne inteligencije bila je jednostavna izgradnja većih, gustih modela koji koriste sve svoje parametre modela, često stotine milijardi za današnje najsposobnije modele za generiranje svakog tokena. Iako moćan, ovaj pristup zahtijeva ogromnu računalnu snagu i energiju, što ga čini izazovnim za skaliranje.

Slično kao što se ljudski mozak oslanja na specifične regije za rješavanje različitih kognitivnih zadataka, bilo da se radi o obradi jezika, prepoznavanju objekata ili rješavanju matematičkog problema, MoE modeli sastoje se od nekoliko specijaliziranih "stručnjaka". Za bilo koji token, usmjerivač aktivira samo najrelevantnije. Ovaj dizajn znači da iako cjelokupni model može sadržavati stotine milijardi parametara, generiranje tokena uključuje korištenje samo malog podskupa, često samo desetaka milijardi. 

extreme-codesign-moe

Selektivnim uključivanjem samo najvažnijih stručnjaka, MoE modeli postižu veću inteligenciju i prilagodljivost bez odgovarajućeg povećanja računalnih troškova. To ih čini temeljem za učinkovite AI sustave optimizirane za performanse po dolaru i po vatu, generirajući znatno više inteligencije za svaku uloženu jedinicu energije i novca.

S obzirom na ove prednosti, ne čudi da je MoE brzo postao glavna arhitektura za frontier modele, koju je ove godine usvojilo preko 60% izdanja AI modela otvorenog koda.

Nvidia GB200 NVL72 je sustav za rackove sa 72 Nvidia Blackwell GPU-a koji rade zajedno kao jedan, pružajući 1,4 eksaflopa AI performansi i 30 TB brze dijeljene memorije. 72 GPU-a su povezani pomoću NVLink Switcha u jednu, masivnu NVLink međusobnu strukturu, koja omogućuje svakom GPU-u komunikaciju s drugima sa 130 TB/s NVLink povezivosti.

Kako bi se ove performanse pružile tvrtkama diljem svijeta, GB200 NVL72 implementiraju glavni pružatelji usluga u oblaku i Nvidia Cloud partneri, uključujući Amazon Web Services, Core42, CoreWeave, Crusoe, Google Cloud, Lambda, Microsoft Azure, Nebius, Nscale, Oracle Cloud Infrastructure i Together AI.

Vezani sadržaji
Komentari

Učitavam komentare ...

Učitavam