NVIDIA Blackwell Ultra GB300 ve AMD Instinct MI355X, MLPerf v5.1 yapay zeka çıkarım testlerinde sahneye çıktı. İki üreticinin en hızlı çözümleri olan bu hızlandırıcılar, özellikle büyük dil modellerinde ciddi performans artışları gösteriyor. Intel’in Arc Pro B60 modeli de gönderenler arasında yer aldı; veri merkezi odaklı olmasa da fiyat/performans tarafında dikkat çekiyor.
Öne çıkan skorlar
– DeepSeek R1 (Offline): NVIDIA GB300, 72 GPU’lu düzenekte GB200’e göre yüzde 45, 8 GPU’da yüzde 44 artış sağlıyor (420569 vs 289712; 48047 vs 33379 örnek/s). Bu sonuçlar, Blackwell Ultra için vaat edilen yaklaşık yüzde 50’lik sıçramaya oldukça yakın.
– DeepSeek R1 (Server): GB300, 72 GPU’da yüzde 25, 8 GPU’da yüzde 21 daha hızlı (209328 vs 167578; 22545 vs 18592 sorgu/s).
– Llama 3.1 405B (Offline): AMD Instinct MI355X’in 8 GPU’lu sonuçları, NVIDIA GB200’e göre yüzde 27 daha yüksek (2109 vs 1660 token/s). 72 GPU karşılaştırmasında GB300, GB200’ü geride bırakıyor (16104 vs 14774 token/s).
– Llama 2 70B (Offline, Open Division): MI355X 64 yongada 648248, 32 yongada 350820, 8 yongada 93045 token/s üretiyor. NVIDIA B200’ün 8 GPU skoru 65770, H200’ün 31383. MI300X (16x) 27185. Maxsun Arc Pro B60 (4x) 3009 token/s ile oldukça geride; ancak konumlandırması veri merkezinden çok farklı.
NVIDIA’nın paylaştığı rekorlar
NVIDIA, Blackwell Ultra GB300 ile model başına hızlandırıcı bazında yeni tepe değerler açıkladı. Öne çıkanlar:
– DeepSeek-R1: 5842 token/s/GPU (offline), 2907 token/s/GPU (server)
– Llama 3.1 405B: 224 token/s/GPU (offline), 170 token/s/GPU (server), 138 token/s/GPU (interaktif)
– Llama 2 70B (99,9%): 12934 token/s/GPU (offline), 12701 token/s/GPU (server), 7856 token/s/GPU (interaktif)
– Llama 3.1 8B: 18370 token/s/GPU (offline), 16099 token/s/GPU (server), 15284 token/s/GPU (interaktif)
– Stable Diffusion XL: 4,07 örnek/s/GPU (offline), 3,59 sorgu/s/GPU (server)
– Mixtral 8x7B: 16099 token/s/GPU (offline), 16131 token/s/GPU (server)
– DLRMv2: 87228 örnek/s/GPU (offline, %99), 80515 örnek/s/GPU (server, %99)
– Whisper: 5667 token/s/GPU
– R-GAT: 81404 örnek/s/GPU
– Retinanet: 1875 örnek/s/GPU (offline), 1801 sorgu/s/GPU (server)
Akıl yürütme (reasoning) sıçraması
Blackwell Ultra, MLPerf’teki ilk çıkışında Hopper’a karşı büyük fark atıyor: DeepSeek-R1’de GPU başına offline 5842’ye karşı 1253 token/s, server tarafında 2907’ye karşı 556 token/s. Yani yaklaşık 4,7 kat (offline) ve 5,2 kat (server) üstünlük söz konusu.
Genel tablo
– NVIDIA GB300, özellikle DeepSeek ve büyük Llama modellerinde GB200’e belirgin fark atıyor.
– AMD MI355X, Llama 2 70B ve Llama 3.1 405B gibi senaryolarda güçlü kazanımlar getiriyor; bazı düzeneklerde NVIDIA’nın mevcut GB200 sonuçlarını rahat geçiyor.
– Intel Arc Pro B60 performans olarak veri merkezi GPU’larının çok gerisinde kalsa da, farklı hedef kitleye yönelik makul bir seçenek.
Önümüzdeki gönderimlerde hem NVIDIA hem AMD hem de Intel’in yazılım ve sistem optimizasyonlarıyla skorları daha da yukarı çekmesi bekleniyor.
Kaynak: wccftech.com