Nvidia

Zatvori

10 puta manji troškovi AI-ja na NVIDIA Blackwellu

Baseten, DeepInfra, Fireworks AI i Together AI smanjuju cijenu po tokenu u svim industrijama s optimizacijama koje se izvode na NVIDIA Blackwell platformi.

Prema tekstu koji je NVIDIA objavila na svojem blogu, skaliranje interakcija umjetne inteligencije zahtijeva od tvrtki da razmotre mogu li si priuštiti više tokena. Odgovor leži u boljoj "tokenomici", koja se u svojoj srži odnosi na smanjenje cijene svakog tokena. Ovaj silazni trend odvija se u svim industrijama.

Nedavno istraživanje MIT-a pokazalo je da učinkovitost infrastrukture i algoritama smanjuje troškove zaključivanja za performanse na graničnoj razini i do 10 puta godišnje.

Kada proizvodnja tokena premaši troškove infrastrukture, cijena svakog tokena pada. Zato vodeći pružatelji usluga zaključivanja, uključujući Baseten, DeepInfra, Fireworks AI i Together AI, koriste platformu NVIDIA Blackwell, koja im pomaže smanjiti trošak po tokenu i do 10 puta u usporedbi s platformom NVIDIA Hopper.

Kombinirajući inteligenciju otvorenog koda na najvišoj razini, ekstremni hardversko-softverski kodni dizajn NVIDIA Blackwella i vlastite optimizirane inferencijske pakete, ovi pružatelji usluga omogućuju dramatično smanjenje troškova tokena za tvrtke u svakoj industriji.

Primjerice, troškovi zaključivanja tvrtke Sully.ai pali su za 90%, što predstavlja 10 puta manje u usporedbi s prethodnom implementacijom zatvorenog koda, dok su se vremena odziva poboljšala za 65% za kritične tijekove rada poput generiranja medicinskih bilješki.

S duge strane Latitude gradi budućnost igara temeljenih na umjetnoj inteligenciji sa svojom avanturističkom igrom AI Dungeon i nadolazećom platformom za igranje uloga s umjetnom inteligencijom Voyage, gdje igrači mogu stvarati ili igrati svjetove sa slobodom odabira bilo koje akcije i stvaranja vlastite priče.

Latitude pokreće velike modele otvorenog koda na DeepInfrinoj platformi za zaključivanje, koju pokreću NVIDIA Blackwell GPU-ovi i TensorRT-LLM.

Za model MoE velikih razmjera, DeepInfra je smanjila trošak po milijun tokena s 20 centi na NVIDIA Hopper platformi na 10 centi na Blackwellu. Prelazak na Blackwellov izvorni format NVFP4 niske preciznosti dodatno je smanjio taj trošak na samo 5 centi, za ukupno 4x poboljšanje cijene po tokenu - uz održavanje točnosti koju kupci očekuju.

inference-moe-tokenomics-diagram_dgm2-r3-1280x680-1-960x510

Pozivi korisničkoj službi s glasovnom umjetnom inteligencijom često završavaju frustracijom jer čak i malo kašnjenje može dovesti do toga da korisnici preglasaju agenta, prekinu vezu ili izgube povjerenje.

Decagon gradi AI agente za korisničku podršku u poduzećima, a glas pokretan umjetnom inteligencijom njegov je najzahtjevniji kanal. Decagonu je bila potrebna infrastruktura koja bi mogla isporučiti odgovore u manje od sekunde pod nepredvidivim prometnim opterećenjima s tokenomikom koja podržava implementaciju glasa 24/7.

Umjetna inteligencija pokreće produkcijsko zaključivanje za Decagonov višemodelni sustav na NVIDIA Blackwell GPU-ima. Tvrtke su surađivale na nekoliko ključnih optimizacija: spekulativnom dekodiranju koje obučava manje modele za generiranje bržih odgovora dok veći model provjerava točnost u pozadini, keširanju ponovljenih elemenata razgovora kako bi se ubrzali odgovori i izgradnji automatskog skaliranja koje obrađuje porast prometa bez smanjenja performansi.

Decagon je zabilježio vrijeme odziva ispod 400 milisekundi čak i pri obradi tisuća tokena po upitu. Trošak po upitu, što je ukupni trošak dovršetka jedne glasovne interakcije, pao je 6 puta u usporedbi s korištenjem vlasničkih modela zatvorenog koda. To je postignuto kombinacijom Decagonovog pristupa više modela (neki otvorenog koda, neki obučeni interno na NVIDIA GPU-ima) i ekstremnog kodnog dizajna NVIDIA Blackwella.

Dramatične uštede troškova u zdravstvu, igrama i korisničkoj službi potaknute su učinkovitošću NVIDIA Blackwella. NVIDIA GB200 NVL72 sustav dodatno skalira ovaj utjecaj pružajući revolucionarno 10x smanjenje cijene po tokenu za modele Reasoning MoE u usporedbi s NVIDIA Hopperom.