AMD, CDNA 4 mimarisini kullanan Instinct MI350 yapay zeka hızlandırıcısının tüm teknik ayrıntılarını Hot Chips 2025’te paylaştı. İki ay önce tanıtılan seri, büyük dil modellerinin hızla büyüyen ihtiyaçlarına odaklanıyor. Temel yaklaşım net: veri türlerinde esneklik ve bellek ölçeğini büyütmek. HBM kapasitesi ve bant genişliği artıyor, bağlantılar hızlanıyor, güç verimliliği iyileşiyor.
MI350 ailesi ve mimari özet
– Veri türleri: tam erişimli FP8’in yanında mikro ölçekli MXFP6 ve MXFP4 desteği geliyor. Bu sayede aynı güçte daha yüksek hesaplama çıkışı alınabiliyor.
– Güç ve bağlantı: un‑core güç tüketimi düşürülmüş. Infinity Fabric daha geniş ve daha verimli çalışıyor.
– Ürünler: MI350X hava soğutmalı, 1000W TBP ve en fazla 2.2 GHz. MI355X sıvı soğutmalı veri merkezlerine yönelik, 1400W TBP ve 2.4 GHz’e kadar saat hızı.
Yongada neler var?
– 185 milyar transistör, 3D çok yongalı düzen, HBM3e bellek ve TSMC’nin COWOS‑S paketlemesi.
– Üretim: XCD’ler (Accelerator Complex Die) TSMC N3P, IOD’ler (G/Ç Temel Yonga) TSMC N6. Pakette 8 XCD ve 2 IOD bulunuyor. Toplam 8 HBM3e bellek konumu var.
– IOD başına 3 Infinity Fabric bağlantısı ve bir PCIe Gen5 x16 hat (EPYC ana sisteme 128 GB/s). Dört HBM3e kontrolcüsü 12‑Hi 36 GB yığınlarla çalışıyor. Pakette 288 GB HBM3e ve 8.0 TB/s’ye kadar bellek bant genişliği.
– İki IOD arası Infinity Fabric AP bağlantısı 5.5 TB/s bisection bant genişliği sağlıyor. IOD üzerinde 256 MB Infinity Cache mevcut. XCD’lere toplam çift yönlü 1075 GB/s IF bant genişliği veriliyor.
Hesap birimleri ve saat hızları
– XCD başına 32 CDNA 4 CU. Toplamda 256 CU ve her CU’da 128 akış işlemcisi. Genel çekirdek sayısı 16.384. 1.024 Matris Çekirdeği mevcut.
– MI355X’te çekirdek hızı 2.4 GHz’e çıkabiliyor.
Dahili bellek hiyerarşisi (özet)
– Tüm yonga genelinde 131 MB vektör kayıtları.
– 40 MB LDS.
– 8 MB L1, 32 MB L2.
– 256 MB Infinity Cache (IOD üzerinde).
Ham performans ve veri türlerine göre hızlar (MI355X, MI300X’e göre AMD’in paylaştığı değerler)
– Vector FP16: 157.3 TFLOPs (1.0x)
– Matrix FP16/BF16: 2.5 PFLOPs (1.9x)
– Matrix FP8: 5.0 PFLOPs (1.9x)
– Matrix INT8/INT4: 5.0 PFLOPs (1.9x)
– Matrix MXFP6/MXFP4: 10 PFLOPs (yeni)
– Vector FP32: 157.3 TFLOPs (1.0x)
– Vector FP64: 78.6 TFLOPs (1.0x)
– Matrix FP64: 78.6 TFLOPs (0.5x)
Bölümlendirme ve ölçeklenme
– Her sokette bellek iki kümeye ayrılabiliyor. XCD’ler mantıksal GPU’lar olarak esnek biçimde bölünebiliyor. Bu yapı CPX+NPS2 ile 8 adet 70B model örneğini aynı anda çalıştırmaya imkan veriyor.
– 8 hızlandırıcı arası Infinity Fabric bağlantısı çift yönlü 154 GB/s’ye ulaşıyor. Önceki nesle göre yaklaşık yüzde 20 artış.
Modül ve platform tasarımı
– Yığın: 3D paketleme → paket montajı → OAM (Open Accelerator Module) montajı → soğutucu takılması.
– OAM’ler, 8 hızlandırıcıya kadar destekleyen UBB 2.0 (Universal Base Board) kartlarına yerleşiyor. Sunucu düğümüne bağlanıp hazır raf sistemlerine giriyor.
– 4U seçenekler mevcut UBB8 altyapılarına (MI300X AC 750W ve MI325X AC 1000W) sığabiliyor.
Raf ölçeğinde hazır çözümler (AMD’e göre)
– MI350X platformu: en çok 36.9 PF16/BF16 PFLOPs ve 73.9 PF8 PFLOPs. 10U hava soğutmalı yapılandırmalara kadar ölçekleniyor.
– MI355X platformu: en çok 40.2 PF16/BF16 PFLOPs ve 80.5 PF8 PFLOPs. 5U doğrudan sıvı soğutmalı (DLC) kasalara kadar ölçekleniyor.
– Her iki platformda da 2.25 TB HBM3e ve 1075 GB/s Infinity Fabric bant genişliği. Sunucu tarafında Zen 5 çekirdekli 5. Nesil EPYC işlemciler ve Pensando UEC tabanlı NIC’ler kullanılıyor.
NVIDIA karşılaştırmaları (AMD’in slaytlarına göre)
– MI355X vs B200: bellek 1.6x, bant genişliği 1.0x, FP64 2.1x, FP16 1.1x, FP8 1.1x, FP6 2.2x, FP4 1.1x.
– MI355X vs GB200: bellek 1.6x, bant genişliği 1.0x, FP64 2.0x, FP16 1.0x, FP8 1.0x, FP6 2.0x, FP4 1.0x.
– Ayrıca MI355X’in OAM çözümünün, GB200 SXM sistemlerine kıyasla AI ve HPC’de 2.1x daha yüksek ham hesap gücü sunduğu paylaşıldı.
Gerçek iş yüklerinde tablo nasıl?
– AMD, Llama 3.1 405B ile çıkarım (throughput) tarafında MI300 serisine göre 35x artış gösteren bir grafik paylaştı. Büyük modeller için veri türü esnekliği ve HBM kapasitesi burada kritik rol oynuyor.
Yol haritası
– MI350 serisi, AMD’nin açıkladığına göre 2025’in üçüncü çeyreğinde partner sistemlerinde yaygın biçimde yer alacak. Bir sonraki nesil MI400 serisi 2026’da planlanıyor.
Tablodan kısa notlar
– MI350X: 16.384 çekirdek, 2.4 GHz’e kadar saat (MI355X), 288 GB HBM3e, 8 TB/s bellek bant genişliği, 256 MB Infinity Cache, OAM form faktörü, 1000W/1400W TBP seçenekleri.
– MI325X ve MI300X’e göre bellek ve bant genişliğinde ciddi sıçrama, FP6/FP4 gibi yeni veri türleriyle performans/enerji verimliliği artışı.
– MI250X’ten MI300/MI325 ve MI350’ye uzanan çizgide HBM kapasitesi 128 GB → 288 GB’a çıkıyor, bant genişliği 3.2 TB/s → 8 TB/s seviyesine taşınıyor.
Sonuç
Instinct MI350 ailesi, büyük modeller için bellek ölçeği, veri türü esnekliği ve bağlantı tarafında anlamlı iyileştirmeler getiriyor. Hava ve sıvı soğutmalı hazır platformlarla birlikte, veri merkezleri için hem eğitim hem çıkarım tarafında daha yüksek performans ve daha iyi verimlilik hedefliyor.
Kaynak: wccftech.com