AMD, Hot Chips 2025’te UEC’ye hazır ilk yapay zekâ ağ bağdaştırıcısını (AI NIC) ayrıntılarıyla anlattı: Pensando Pollara 400.
AMD, geçtiğimiz yıl AI sistemleri için geliştirilen yeni ağ kartı Pensando Pollara 400’ü tanıtmıştı. Kart, Ultra Ethernet Konsorsiyumu’na (UEC) “hazır” ilk AI NIC olarak öne çıkıyor. 400GbE bant genişliği, NVIDIA ConnectX-7 ile aynı seviyede. NVIDIA, Blackwell Ultra sistemlerle birlikte 800GbE sunan ConnectX-8’i de sevk ediyor.
Öne çıkan başlıklar
– Programlanabilir donanım veri yolu
– En fazla %25’e kadar performans artışı
– 400GbE hız
– Açık ekosistem
– UEC uyumlu RDMA
– İş tamamlama süresinde düşüş
– Yüksek erişilebilirlik
Mimari ve platform uyumu
Pensando ağ çözümleri, AMD’nin veri merkezi tarafındaki EPYC işlemciler ve Instinct hızlandırıcılarla aynı çizgide ilerliyor. Sunucu içinde NIC’ler ve CPU’lar PCIe anahtarlarıyla bağlanıyor. Pollara 400’ün kendisinde PCIe anahtarı yok; doğrudan PCIe Gen5 x16 arayüzüne takılıyor.
P4 tabanlı veri yolu
Pollara 400’ün kalbinde P4 tabanlı programlanabilir bir mimari var. P4 hattındaki temel bileşenlerden Table Engine (TE), paket başlığı vektöründen ya da hash’ten anahtar üretip gerekli bellek okuma işlemlerini başlatıyor. Match Processing Unit (MPU) ise alan manipülasyonu için alanına özel bir işlemci olarak çalışıyor; bellek, tablo ve PHV arayüzleri ayrı.
İyileştirmeler
– Sanal adresi fiziksel adrese çeviren va2pa bloğu sayesinde adres çevirimi hızlanıyor.
– Atomik bellek işlemleri SRAM’e yakın konumlandırılarak gecikme azaltılıyor.
– Veri yolu önbellek tutarlılığı, geçersiz kılma/güncelleme mantığıyla adres aralığı bazında korunuyor.
AI ağlarında karşılaşılan sıkıntılar
Ölçeklenmiş AI kümelerinde bağlantıların yeterince dolmaması (ECMP yük dengeleme kaynaklı), düğüm ve ağ tıkanıklığı, paket kaybı gibi konular performansı vuruyor. AI arkauç ağları genellikle çok yüksek kullanım oranlarıyla çalıştığı için bu sorunlar daha görünür hale geliyor ve işlerin önemli bir kısmı ağda bekleyerek geçiyor.
UEC ile çözüm
AMD, bu darboğazlara karşı UEC’yi öneriyor. UEC; açık, birlikte çalışabilir, uçtan uca bir iletişim yığını. Büyük ölçekli AI ve HPC gereksinimlerine uygun, performanslı, ölçeklenebilir ve maliyet etkin. Çözümler arasında:
– Çoklu yol kullanımı (entropi temelli paket dağıtma) ile bağlantıların dengeli doldurulması
– Tıkanıklık kontrolü (RTT, ACK/SACK, ECN geri bildirimiyle pencere boyutunun ayarlanması)
– Kayıp paketlerin seçmeli onayla hızlı yeniden iletimi
Performans
AMD’nin paylaştığı sonuçlara göre Pensando Pollara 400, UEC’ye hazır RDMA yığını ile RoCEv2’ye kıyasla ciddi kazanımlar getiriyor: RoCEv2’de 4 QP ile karşılaştırıldığında ortalama %25, 1 QP senaryosunda ise yaklaşık %40 daha yüksek performans elde ediliyor.
Kısaca
Pollara 400; 400GbE hız, P4 tabanlı esnek veri yolu, UEC ile çoklu yol ve tıkanıklık kontrolü gibi özellikleri birleştirerek AI kümelerinde ağ tarafındaki beklemeyi azaltmayı hedefliyor. AMD’nin EPYC ve Instinct ekosistemiyle birlikte, veri merkezlerinde daha öngörülebilir ve verimli iş tamamlama süreleri vadediyor.
Kaynak: wccftech.com