Meta, NVIDIA’nin GB200 NVL72 tabanını temel alan ve OpenRack v3 ile sıvı soğutmaya uygun “Catalina” yapay zekâ altyapısının yapı taşlarını paylaştı.
Meta’nın özelleştirdiği NVIDIA GB200 NVL72 Blackwell platformu: Catalina Pod
• 2022’de Meta’nın odağı, çoğunlukla sıralama ve öneri modelleri için 6.000 GPU civarında kümelerdi; tipik iş yükleri 128–512 GPU arasında ölçekleniyordu.
• Generatif yapay zekâ ve büyük dil modellerinin (LLM) yükselişiyle bir yıl içinde kümeler 16–24 bin GPU’ya çıktı. Geçen yıl Meta 100 binin üzerinde GPU çalıştırdı ve sayı artmaya devam ediyor. Llama gibi açık modellerle yazılım tarafını da güçlendiren şirket, önümüzdeki birkaç yılda küme boyutlarının 10 katına kadar büyümesini bekliyor.
Catalina nedir?
Meta, NVIDIA ile erken aşamada başladığı Catalina projesinde NVL72’yi temel alıyor, ancak ihtiyaçlarına göre özelleştirilmiş bir tasarım kullanıyor. NVIDIA ile birlikte MGX ve NVL72’nin referans tasarımlarını da açık kaynak ekosistemine katkıladılar; Catalina’nın belgeleri Open Compute Project üzerinden erişilebiliyor. Meta veri merkezlerine kurulan her birime “pod” diyor; ölçek büyütmek için bu pod’ları kopyalayıp yan yana ekliyor.
İki raf, tek bir 72 GPU alanı
Standart NVL72’den en belirgin fark, tek bir 72 GPU’luk ölçekleme alanını iki BT rafına yaymaları. Her rafta üst ve alt bölümlere dağıtılmış 18 hesaplama çekmecesi bulunuyor. Sol ve sağ tarafta dokuzar NVLink anahtarı yer alıyor; raflar arasındaki kalın kablo demetleriyle tüm GPU’lar tek bir alan gibi birbirine bağlanıyor. Rafların kenarlarında hava destekli sıvı soğutma (ALC) modülleri var. Bu sayede Meta, ABD’de ve dünyada kullanımda olan mevcut veri merkezlerine yüksek güç yoğunluklu, sıvı soğutmalı rafları hızla entegre edebiliyor.
Bellek ve güç altyapısı
İkili raf düzeni, CPU sayısını ve toplam belleği artırıyor: LPDDR kapasitesi raf başına 17 TB’dan 34 TB’a çıkıyor; GPU ve CPU’ların paylaştığı tutarlı (cache-coherent) bellek havuzu toplamda 48 TB’a kadar uzanıyor. Güç kaynakları 480 V veya 277 V tek faz AC’yi 48 V DC’ye çeviriyor; bu enerji arkadaki bara üzerinden sunucu bıçaklarına, NV anahtarlarına ve ağ donanımlarına dağıtılıyor.
Raf bileşenleri ve ağ
Rafların üst ve altına güç rafları yerleştirilmiş. Meta’nın kendi fiber patch paneli, raf içi fiber kabloları arka uç ağa düzenli şekilde topluyor ve satır sonu anahtarlara ulaştırıyor. Wedge 400 önyüz anahtarı, raf yönetim denetleyicisi (RMC) ve çeşitli BT/switch çekmeceleri mimarinin parçası.
Yeni nesil teknolojiler: soğutma, güvenlik ve açık raflar
• Yüksek güçlü OpenRack v3: Meta, OpenRack v3’ün yüksek güçlü sürümünü ilk kez Catalina ile devreye alıyor. Baralı güç dağıtımı 600 A seviyesinde; raf başına 94 kW’a kadar destek sağlanıyor. Tesis tarafında doğrudan rafa sıvı getiren yeni binalarla da uyumlu.
• RMC (Rack Management Controller): Rafın tepesinde konumlanan RMC, soğutmayı açıp kapatıyor, sızıntı sensörlerini izliyor, gerektiğinde ALC modüllerini ya da tesisin vana hattını kapatıyor. Böylece olası bir kaçağa hızla müdahale ediliyor.
• Sıvı soğutma: Hava destekli sıvı soğutma modülleri, geleneksel veri merkezlerinde bile yüksek TDP’li sistemleri güvenli ve verimli çalıştırmayı sağlıyor.
Hesaplama çekmecesi ve yönetim katmanı
Hesaplama çekmeceleri; IO kartı, NVMe arka düzlemi ve işlemci modüllerinden oluşan modüler bir yapıya sahip. Güç dağıtım panoları, yönetim kontrol kartları (BMC/DC‑SCM) ve sızıntı algılama hattı gibi ayrıntılar, servisi ve arızaya dayanıklılığı kolaylaştırıyor.
Kümeler arası iletişim: ayrıştırılmış zamanlanmış omurga
Catalina pod’ları, Meta’nın “disaggregated scheduled fabric” adını verdiği ağ mimarisi ile birbirine bağlanıyor. Bu omurga, tek bina içindeki çoklu pod’ları ya da birden fazla binayı bir araya getirip daha büyük AI kümeleri kurmayı mümkün kılıyor. Yapay zekâ iş yüklerine göre ayarlı; esneklik ve yüksek hız sağlıyor. Kısacası, GPU’ların birbirleriyle konuşmasını sağlayan temel ağ katmanı bu.
Özetle Meta, NVIDIA GB200 NVL72 temelli Catalina ile yüksek güç, yüksek yoğunluk ve açık mimari standartlarını birleştiriyor. Açık kaynak paylaşımlar, gelişmiş sıvı soğutma, güçlü güç dağıtımı ve pod tabanlı ölçekleme yaklaşımı, şirketin hızla büyüyen LLM ve GenAI ihtiyaçlarına yanıt veriyor.
Kaynak: wccftech.com