NVIDIA Blackwell Ultra GB300 zapewnia 50-krotny wzrost wydajności dla agentów AI
Terrill Dicki
16 lutego 2026 r., godz. 17:24
Systemy GB300 NVL72 firmy NVIDIA zapewniają 50-krotnie większą przepustowość na megawat oraz 35-krotnie niższe koszty tokenów w porównaniu z Hopper, a Microsoft i CoreWeave wdrażają je na dużą skalę.
Platforma Blackwell Ultra nowej generacji firmy NVIDIA zapewnia radykalną poprawę kosztów i wydajności w przypadku obciążeń związanych z wnioskowaniem AI, a nowe dane porównawcze pokazują, że GB300 NVL72 osiąga do 50 razy większą przepustowość na megawat i 35 razy niższe koszty na token w porównaniu z poprzednią generacją Hopper.
Poprawa wydajności następuje w momencie, gdy według raportu OpenRouter „State of Inference” w ciągu ostatniego roku udział asystentów kodowania AI i aplikacji agencyjnych wzrósł z 11% do około 50% wszystkich zapytań AI. Obciążenia te wymagają zarówno niskiego opóźnienia dla responsywności w czasie rzeczywistym, jak i długich okien kontekstowych podczas wnioskowania na podstawie całych baz kodu – dokładnie tam, gdzie Blackwell Ultra osiąga najlepsze wyniki.
Duzi dostawcy usług w chmurze już wdrażają
Microsoft, CoreWeave i Oracle Cloud Infrastructure wdrażają systemy GB300 NVL72 w środowiskach produkcyjnych. Wdrożenia te są kontynuacją udanych wdrożeń GB200 NVL72, które rozpoczęły się pod koniec 2025 r., a dostawcy usług wnioskowania, tacy jak Baseten, DeepInfra, Fireworks AI i Together AI, już odnotowali dziesięciokrotną redukcję kosztów na token w porównaniu z poprzednimi systemami Blackwell.
„W miarę jak wnioskowanie staje się coraz bardziej centralnym elementem produkcji AI, wydajność w długim kontekście i efektywność tokenów stają się kluczowe” — powiedział Chen Goldberg, starszy wiceprezes ds. inżynierii w CoreWeave. „Grace Blackwell NVL72 stanowi bezpośrednią odpowiedź na to wyzwanie”.
Ulepszenia techniczne zapewniają korzyści
Skok wydajnościowy wynika z podejścia NVIDIA do współprojektowania zarówno sprzętu, jak i oprogramowania. Istotne ulepszenia obejmują jądra GPU o wyższej wydajności, zoptymalizowane pod kątem niskich opóźnień, symetryczną pamięć NVLink zapewniającą bezpośredni dostęp między procesorami GPU oraz programowe uruchamianie zależne, które minimalizuje czas oczekiwania między operacjami.
Optymalizacje oprogramowania przeprowadzone przez zespoły NVIDIA TensorRT-LLM i Dynamo zaowocowały nawet pięciokrotnym wzrostem wydajności systemów GB200 w przypadku obciążeń o niskim opóźnieniu w porównaniu z sytuacją sprzed zaledwie czterech miesięcy — wzrost ten idzie w parze z ulepszeniami sprzętu w GB300.
W scenariuszach o długim kontekście, w których wprowadza się 128 000 tokenów i wykonuje 8000 tokenów, GB300 NVL72 zapewnia 1,5-krotnie niższy koszt na token niż GB200 NVL72. Poprawa ta wynika z 1,5-krotnie wyższej wydajności obliczeniowej NVFP4 i 2-krotnie szybszego przetwarzania uwagi w architekturze Blackwell Ultra.
Co dalej
NVIDIA już zapowiada platformę Rubin jako następcę Blackwell, która obiecuje dalszą 10-krotną poprawę przepustowości na megawat dla wnioskowania typu mixture-of-experts. Firma twierdzi, że Rubin może szkolić duże modele MoE przy użyciu jednej czwartej GPU wymaganych przez Blackwell.
Dla organizacji oceniających inwestycje w infrastrukturę AI, GB300 NVL72 stanowi ważny punkt zwrotny. Dzięki systemom o skali rackowej, których koszt szacuje się na około 3 miliony dolarów, a produkcja rozpocznie się na początku 2026 roku, sytuacja ekonomiczna związana z wykonywaniem na dużą skalę zadań związanych ze sztuczną inteligencją ulega szybkiej zmianie. 35-krotna redukcja kosztów przy niskich opóźnieniach może zasadniczo zmienić to, które zastosowania sztucznej inteligencji staną się komercyjnie opłacalne.
Źródło zdjęcia: Shutterstock