NVIDIA, Blackwell GB200/300 NVL Rafları ve Tepsileri ile MGX’in Open Compute Taahhütlerinin Teknik Ayrıntılarını Açıkladı

NVIDIA, Blackwell tabanlı GB200 ve GB300 sistemlerinin raf, çekmece ve MGX platformunun “açık donanım” tarafını Hot Chips 2025’te detaylı anlattı. Sunumu NVIDIA’da mekanik mühendis olarak görev yapan John Norton yaptı. Geçen yıl ilk Blackwell sunucularını göstermişlerdi; bu yıl geliştirilmiş Blackwell Ultra platformu ve MGX’in OCP’ye (Open Compute Project) açılan yönleri öne çıktı.

MGX nedir, neden önemli?
– Farklı müşteriler yönetim altyapısı, NIC tercihi ya da CPU/GPU karışımı gibi noktalarda özel isteklerle geliyor. Küçük bir değişiklik tüm sistemi etkileyebiliyor.
– MGX, bu sorunu modüler tasarımla çözüyor. Sistem, birbiriyle uyumlu “yapı taşlarına” ayrılıyor. Gerektiğinde yalnızca ilgili modül değiştiriliyor.
– NVIDIA, MGX özelliklerini ve arayüzlerini OCP’ye açtı. 3D modeller ve çizimler indirilebilir durumda. Böylece müşteriler kendi tedarik zincirlerinde küçük özelleştirmeler yapabiliyor.

Odak: MGX raf altyapısı ile hesaplama ve anahtar çekmeceleri
– MGX, GB200/GB300 Blackwell sistemlerinin temelini oluşturuyor.
– Rafın tepesinde ağ anahtarları, hemen altında raf güç kaynağı yer alıyor. Veri merkezinden gelen yüksek voltajlı AC, arka taraftaki DC dağıtım barasına (busbar) beslenen DC’ye çevriliyor.
– NVLink omurgası, GPU çekmecelerini anahtar çekmecelerine düşük gecikmeli bakır bağlantılarla bağlıyor. NVLink hat başına 200 Gb/s hızında çalışıyor.

GB200/GB300 için öne çıkan sayılar
– GB200 raf düzeninde üstte 10 hesaplama çekmecesi, ardından 9 anahtar çekmecesi ve altta 8 hesaplama çekmecesi bulunuyor. Toplamda 300 çipten söz ediliyor.
– Her hesaplama çekmecesi FP4 (4 bit kayan nokta) hassasiyette 80 PFLOPS veriyor. Tüm sistem 1,4 exaflop seviyesine ulaşıyor.
– Sistem toplamda yaklaşık 120 kW güç tüketiyor. Her hesaplama çekmecesi ~7 kW.

Yoğunluk ve güç dağıtımı için yapılan dokunuşlar
– OCP rafları standartta 48 mm aralıkla yerleşim sunuyor. NVIDIA, EIA 19 inç dünyasındaki ~44,5 mm’lik 1U adımını da destekleyerek aynı yükseklikte daha fazla düğüm sığdırabiliyor.
– Mevcut busbar ~35 kW civarındaydı. İhtiyaç dört katına çıkınca kesit alanı artırılmış, daha derin bir busbar tasarlanmış. Sistem seviyesinde 1400 A desteğe çıkılmış.
– Rafın arkasına ek bir çerçeve takılarak taban alanı 1068 mm’den 1200 mm’ye genişletilmiş. Bu sayede kablolama ve soğutma için ekstra yer kazanılmış.

Hesaplama çekmecesi (Compute Tray) mimarisi
– Her çekmecede iki CPU ve dört GPU var. HPM (Host Processor Module) adı verilen modül başına bir Grace CPU ve iki Blackwell GPU düşüyor.
– HPM’ler “micro‑MGX” kart biçiminde bir araya getiriliyor. Arayüzlerin büyük kısmı altta; “kuzey” tarafında NVLink konnektörleri yer alıyor.
– Çekmecenin ön kısmında esnek bir fan/soğutma bölgesi mevcut. Ön yüzde üç modüler bölme bulunuyor. Müşteriler burada kendi yönetim kartlarını, farklı NIC seçeneklerini ya da depolama modüllerini (U.2 veya E1.S SSD, DCSCM) tercih edebiliyor.
– Arka kısımda UQD’ler (Universal Quick Disconnect) kullanılıyor. Tüm sistem yüzde 100 sıvı soğutmalı.

Son durum ve yol haritası
– NVIDIA, GB200 ve GB300’ün tam üretimde olduğunu, dünyanın farklı yerlerindeki hiperscale veri merkezlerinde çalıştığını söylüyor.
– Şirket, yoğunluk, güç ve soğutmada sınırları zorlayan yıllık bir yenileme ritmi izliyor. Açık bir ara bağlantı yaklaşımı olan NVLink Fusion gibi teknolojiler ölçeklenebilirliği daha da artıracak.

Özetle: MGX’in modüler ve OCP’ye açık tasarımı, Blackwell tabanlı sistemlerde müşteriye göre esnek kurulumlar sağlıyor. NVLink omurgası ve güçlü güç/soğutma altyapısı sayesinde tek bir rafta exaflop seviyesine yaklaşan performans elde ediliyor.

Kaynak: wccftech.com

Total
0
Shares
Bir yanıt yazın
Previous Post

İddiaya Göre Trump Yönetimi, Intel’in ABD’de Gelişmiş Çip Üretimine Destek Verecek, Büyük Müşterilere Ulaşma da Dahil

Next Post

Meta’nın Catalina Pod Yapay Zeka Sistemi, NVIDIA Blackwell GB200 NVL72’yi Open Rack v3 ve Sıvı Soğutma ile Birleştiriyor

Related Posts