Yazı

Dağıtık Şirket İçi Yapay Zeka Kümeleri İçin Ağ Yapısı Tasarımı

On-Premises AI · AI Architecture · Best Practices · Advanced · Foundations

InfiniBand topolojilerinden Ethernet tabanlı alternatiflere ve pratik bant genişliği planlamasına kadar, şirket içi AI kümelerinde GPU düğümlerini bağlayan ağ katmanı için mimari desenler.

Yüksek hızlı veri bağlantılarını temsil eden renkli soyut ışık izleri

Ağ, Unuttuğunuz Darboğazdır

Kuruluşlar şirket içi AI altyapısı planladığında GPU tüm ilgiyi alır. Ekipler H100 ile H200'ü karşılaştırmak, VRAM gereksinimlerini hesaplamak ve depolama dizilerini boyutlandırmak için haftalar harcar. Bu GPU'ları birbirine bağlayan ağ yapısı genellikle mimari diyagramda tek bir satır alır: "yüksek hızlı bağlantı." Bu maliyetli bir göz ardıdır.

Tek düğümlü çıkarım için ağ pek önemli değildir — veri girer, tahminler çıkar ve darboğaz GPU hesaplamasıdır. Ancak çok düğümlü eğitime, tensör paralelliğiyle çok GPU'lu çıkarıma veya dağıtık RAG'a geçtiğiniz anda ağ kritik yol haline gelir. İyi tasarlanmış bir yapıda 4 saat süren bir eğitim işi, aynı GPU'lar tıkanık bir Ethernet anahtarına bağlandığında 12 saat sürebilir.

InfiniBand: GPU-GPU İletişiminde Altın Standart

InfiniBand (IB), ciddi AI iş yükleri için baskın bağlantı teknolojisi olmaya devam ediyor. NVIDIA'nın DGX ve HGX sistemleri, NDR (400 Gbps) InfiniBand destekli ConnectX-7 adaptörleriyle birlikte gelir ve en yeni nesil XDR (800 Gbps) seviyesine ulaşır. Avantaj yalnızca ham bant genişliği değildir — GPU'ların CPU veya işletim sistemi çekirdeğini dahil etmeden birbirlerinin belleğini okumasını ve yazmasını sağlayan RDMA'dır (Remote Direct Memory Access).

DeepSpeed, Megatron-LM veya PyTorch FSDP gibi çerçevelerle dağıtık eğitim için RDMA, gradyanları TCP paketlerine paketleme, çekirdek ağ yığınından geçirme ve diğer tarafta açma yükünü ortadan kaldırır. Eğitim iletişimine hakim olan kolektif operasyonlar (AllReduce, AllGather), IB ile hat hızına yakın çalışabilirken TCP/IP üzerinden önemli bir yazılım yükü ödenir.

AI kümeleri için InfiniBand topolojileri genellikle fat-tree tasarımı kullanır. Yaprak anahtarlar doğrudan GPU düğümlerine bağlanır ve omurga anahtarları yaprak anahtarları birbirine bağlar. 128 düğümün altındaki kümeler için iki katmanlı yaprak-omurga topolojisi yeterlidir. Bunun ötesinde üç katmanlı bir tasarım veya NVIDIA'nın her sunucudaki NVLink alanlarıyla uyumlu ray optimize edilmiş topolojisini düşünün.

Ethernet Alternatifleri: InfiniBand Mümkün Olmadığında

InfiniBand, her kuruluşun haklı çıkaramayacağı özel anahtarlar, kablolar ve operasyonel uzmanlık gerektirir. İş yükleriniz ağırlıklı olarak çıkarım, küçük toplu boyutlarla ince ayar veya ağın gradyan tensörleri yerine gömme vektörleri ve belge parçaları taşıdığı RAG hatları ise yüksek hızlı Ethernet yeterli ve önemli ölçüde daha ucuz olabilir.

RoCE v2 (RDMA over Converged Ethernet) ile modern 100GbE ve 400GbE Ethernet, standart Ethernet donanımına RDMA yetenekleri getirir. RoCE, kayıpsız Ethernet gerektirir; bu, yoldaki her anahtarda Priority Flow Control (PFC) ve Explicit Congestion Notification (ECN) yapılandırması anlamına gelir.

Çıkarım iş yükleri için NDR InfiniBand ile 400GbE RoCE v2 arasındaki pratik performans farkı birçok kişinin varsaydığından küçüktür. Tensör paralelliği kullanarak 70B parametreli bir modeli 4 düğümde sunmak için her iki bağlantı da kabul edilebilir tokenlar arası gecikme sunar.

Birçok şirket içi dağıtım için hibrit bir yaklaşım iyi çalışır: GPU eğitim kümesi için InfiniBand, çıkarım sunum filosu ve destekleyici altyapı için 100GbE Ethernet.

Bant Genişliği Planlaması: Ne Kadar Yeterli?

Ağ bant genişliğini boyutlandırmak, iletişim kalıplarınızı anlamayı gerektirir. Üç iş yükü profili farklı gereksinimleri yönlendirir:

Veri paralelliği ile dağıtık eğitim. Her GPU bağımsız olarak gradyanları hesaplar, ardından tüm GPU'lar AllReduce ile senkronize olur. Adım başına aktarılan veri, model boyutunun 2 katına eşittir. FP16'da 70B parametreli bir model, tüm halka boyunca senkronizasyon adımı başına yaklaşık 280 GB aktarım anlamına gelir.

Çıkarım için tensör paralelliği. Bir model farklı düğümlerdeki GPU'lara bölündüğünde, aktivasyonlar her transformer katmanında düğümler arasında aktarılmalıdır. 400 Gbps'de bu 1 milisaniyenin altında aktarılır, ancak 25 Gbps Ethernet'te katman başına 5-8 milisaniye sürer — 80 katmanda bu, her token üretimine 400-640ms ekler.

RAG ve erişim iş yükleri. Ağ, çıkarım sunucuları ile vektör veritabanı arasında gömme vektörleri ve belge parçaları taşır. Bu orta düzey bant genişliğidir ancak gerçek zamanlı uygulamalar için gecikmeye duyarlıdır. Uygun QoS yapılandırmasına sahip standart 25GbE bağlantılar çoğu RAG dağıtımı için yeterlidir.

Depolama Ağı Değerlendirmeleri

AI iş yükleri depolama ağına benzersiz talepler yükler. Eğitim verileri, hesaplama hattını aç bırakmadan GPU'lara akmalıdır. Model kontrol noktaları — genellikle her biri 100-500 GB — eğitimi engellemeden periyodik olarak yazılmalıdır.

Depolama ağını GPU bağlantı yapısından ayırın. Depolama trafiği için ayrı ağ arayüzleri kullanın. NVMe-oF (NVMe over Fabrics), yüksek performanslı AI depolaması için giderek daha fazla tercih edilen protokoldür ve ağ üzerinden yerel disk gecikmesine yakın performans sunar.

Eğitim verileri için gerekli minimum depolama bant genişliğini şu şekilde hesaplayın: toplu_boyut x örnek_boyutu x saniye_başına_adım. Veri artırma ve karıştırma sırasındaki I/O patlamalarını hesaba katmak için bu sayının 2-3 katını sağlayın.

AI Ağ Yapısını İzleme ve Sorun Giderme

AI kümelerindeki ağ sorunları, kesinti olarak değil eğitim yavaşlaması olarak kendini gösterir. AllReduce halkasındaki tek bir bozulmuş bağlantı, diğer tüm GPU'ları beklemeye zorlar ve 4 saatlik eğitim işini 8 saate çevirir. Ağ düzeyinde izleme olmadan bu bir GPU performans sorunu gibi görünür.

Yapınızı üç izleme katmanıyla donatın. Bağlantı düzeyinde sağlık: her anahtar portundaki port hata sayaçlarını izleyin. Trafik düzeyinde görünürlük: port başına kullanımı izleyin ve sıcak noktaları belirleyin. InfiniBand için UFM veya Ethernet için sFlow/IPFIX trafik analitiği sağlar. Uygulama düzeyinde korelasyon: ağın darboğaz olduğunu belirlemek için ağ metriklerini eğitim metrikleriyle ilişkilendirin.

Bilinen iyi bir eğitim çalışması sırasında bir temel oluşturun. Adım başına iletişim süresini, bağlantı başına kullanımı ve hata sayılarını kaydedin. Gelecekteki çalışmalar saptığında araştırma için bir referans noktanız olur. Normalin neye benzediğini bildiğinizde ağ yapısı sorunlarının teşhisi çok daha kolaydır.

Görsel: Marek Piwnicki, Unsplash.