Yazı
Yapay Zeka Ağırlıklı Yerinde Veri Merkezleri için PUE Optimizasyon Stratejileri
GPU yoğun AI iş yükleri çalıştıran veri merkezlerinde Güç Kullanım Etkinliğini iyileştirmeye yönelik pratik yaklaşımlar: soğutma stratejileri, iş yükü zamanlaması ve ölçüm çerçeveleri.
PUE Neden AI İş Yükleri için Daha Önemli?
Güç Kullanım Etkinliği (PUE), toplam tesis gücünün BT ekipmanı tarafından tüketilen güce oranını ölçer. 1.0 PUE, tesise giren her watt'ın doğrudan hesaplamaya gittiği anlamına gelir; 2.0 PUE ise gücün yarısının soğutma, aydınlatma, güç dağıtımı ve diğer genel giderler tarafından tüketildiği anlamına gelir. Geleneksel kurumsal veri merkezleri 1.5 ile 2.0 arasında PUE değerlerinde çalışırken, hiper ölçekli bulut tesisleri 1.1 ile 1.2 arasında değerler elde eder.
AI iş yükleri PUE optimizasyonunu hem daha önemli hem de daha zor hale getirir. Tek bir NVIDIA H100 GPU, tam yük altında 700 watt'a kadar çeker ve tipik bir eğitim veya çıkarım sunucusu dört ila sekiz GPU içerir. AI odaklı bir veri merkezinde raf başına ısı yoğunluğu, geleneksel bir sunucu odasından üç ila beş kat daha yüksek olabilir. Bu yoğunlaştırılmış ısı çıktısı, genellikle PUE genel giderine en büyük katkıyı sağlayan soğutma sistemleri üzerinde büyük baskı oluşturur.
Finansal etki doğrudandır. PUE 1.8'de 100 GPU sunucusu çalıştıran bir kuruluş, PUE 1.2'de çalışan bir kuruluşa kıyasla elektrik için neredeyse iki kat ödeme yapar. Sürekli çalışan AI iş yükleri için bu fark, yıllık yüz binlerce dolara ulaşır. PUE iyileştirmesi, yerinde AI operatörlerinin elindeki en yüksek kaldıraçlı maliyet azaltma stratejilerinden biridir ve modellerde, kodda veya verilerde herhangi bir değişiklik gerektirmez.
Karma Ortamlarda PUE'yi Doğru Ölçme
PUE'yi optimize etmeden önce doğru şekilde ölçmeniz gerekir. Birçok kuruluş, toplam yardımcı program gücünü tahmini BT yüküne bölerek tesis düzeyinde PUE hesaplar. Bu yaklaşım, GPU sunucularının aynı tesisi paylaşan genel amaçlı sunucular, depolama dizileri ve ağ ekipmanlarından dramatik olarak farklı güç profillerine sahip olması nedeniyle AI iş yüklerinin gerçek maliyetini gizler.
AI'ya ayrılmış raflar için raf düzeyinde veya ideal olarak güç dağıtım birimi (PDU) düzeyinde güç ölçümü kurarak iş yüküne özgü PUE ölçümü uygulayın. Bu, AI altyapınızın PUE katkısını tesisin geri kalanından ayrı olarak hesaplamanızı sağlar. Birçok ortamda, GPU rafları için efektif PUE, bu rafların orantısız soğutma talebi oluşturması nedeniyle tesis ortalamasından önemli ölçüde yüksektir.
PUE'yi aylık veya üç aylık anlık görüntü olarak değil, sürekli ölçün. GPU iş yükleri genellikle aralıklıdır: eğitim işleri günlerce tam kapasitede çalışabilir, ardından sonuçlar değerlendirilirken boşta kalabilir ve çıkarım yükleri günlük net zirvelere sahip kullanıcı trafik kalıplarını takip eder. PUE, yükle birlikte değişir çünkü soğutma sistemlerinin BT yükü düşse bile devam eden bir temel enerji maliyeti vardır.
PUE dağılımını kullanarak genel gider gücünün nereye gittiğini belirleyin. BT dışı gücü soğutma (tipik olarak genel giderin yüzde 40-60'ı), güç dağıtım kayıpları (yüzde 15-25), aydınlatma ve fiziksel güvenlik (yüzde 5-10) ve diğer tesis sistemleri olarak ayrıştırın. Bu ayrıştırma, optimizasyon çabalarını en yüksek etki potansiyeline sahip kategorilere yönlendirir.
Yüksek Yoğunluklu GPU Rafları için Soğutma Stratejileri
Soğutma, AI ağırlıklı tesislerde PUE iyileştirmesi için birincil kaldıraçtır. Soğuk havayı yükseltilmiş bir zemine pompalayıp en sıcak ekipmana ulaşmasını ummak gibi geleneksel yaklaşım, GPU raf yoğunlukları için yetersizdir. Üç soğutma stratejisi giderek artan PUE etkisi sunar.
Sıcak koridor/soğuk koridor muhafazası minimum temeldir. Soğuk besleme havasını sıcak egzoz havasından fiziksel olarak ayırarak, muhafaza soğutma sistemlerini daha fazla çalışmaya zorlayan karışmayı önler. Henüz muhafaza uygulamayan kuruluşlar tipik olarak bu yapısal değişiklikle tek başına soğutma enerjisini yüzde 15-25 oranında azaltabilir.
Sıra içi ve arka kapı soğutma üniteleri, ısı eşanjörlerini doğrudan yüksek yoğunluklu rafların yanına veya arkasına yerleştirir. Tüm odayı en sıcak ekipmanı tatmin edecek bir sıcaklığa soğutmak yerine, bu üniteler soğutmayı tam olarak ihtiyaç duyulan yere hedefler. Bu yaklaşım, AI raflarının düşük yoğunluklu ekipmanlarla bir arada bulunduğu karma ortamlarda özellikle etkilidir.
Doğrudan sıvı soğutma (DLC), soğutucuyu doğrudan GPU'lara ve diğer yüksek ısılı bileşenlere monte edilmiş soğuk plakalara dolaştırır. DLC, hava soğutmanın karşılayamayacağı yoğunluklarda ısıyı uzaklaştırabilir ve bunu dramatik olarak daha az enerjiyle yapar çünkü sıvı ısıyı havadan çok daha verimli şekilde transfer eder. Yeni nesil GPU donanımı dağıtan kuruluşlar, DLC'yi bir optimizasyon olarak değil ön koşul olarak değerlendirmelidir.
Hangi soğutma stratejisini benimserseniz benimseyin, besleme havası sıcaklığını ekipmanınızın tolere edebildiği maksimum seviyeye yükseltin. ASHRAE kılavuzları çoğu sunucu ekipmanı için 27 santigrat dereceye kadar giriş sıcaklıklarına izin verir. Besleme sıcaklığındaki her derecelik artış, o soğutulmuş havayı üretmek için gereken enerjiyi azaltarak PUE'yi doğrudan iyileştirir.
İş Yükü Farkındalıklı Güç Yönetimi
PUE optimizasyonu salt bir tesis sorunu değildir. AI iş yüklerinin nasıl ve ne zaman çalıştığı, toplam güç tüketimini ve soğutma verimliliğini önemli ölçüde etkiler. Geleneksel kaynak tahsisinin yanı sıra güç ve termal etkiyi de dikkate alan iş yükü farkındalıklı zamanlama uygulayın.
GPU yoğun eğitim işlerini soğutmanın en verimli olduğu dönemlerde planlayın. Birçok iklimde gece ortam sıcaklıkları gündüz zirvelerinden 10-15 santigrat derece daha düşüktür ve bu durum soğutma için gereken enerjiyi doğrudan azaltır. Sıcak bir öğleden sonra PUE'yi 1.7'ye çıkaracak bir eğitim işi, serin bir gecede efektif PUE 1.4'te çalışabilir.
Gecikmeye duyarlı olmayan iş yükleri için GPU güç sınırlama uygulayın. NVIDIA GPU'ları, nvidia-smi aracılığıyla yapılandırılabilir güç sınırlarını destekler; bu, biraz daha uzun hesaplama süreleri karşılığında maksimum güç çekmesini azaltır. Maksimum gücün yüzde 80'inde sınırlanmış GPU'larla çalışan bir eğitim işi tipik olarak yalnızca yüzde 10-15 daha yavaş tamamlanırken hem doğrudan güç tüketimini hem de soğutma yükünü azaltır.
Kısmen yüklü GPU sunucularının verimlilik cezasından kaçınmak için iş yükü konsolidasyonu kullanın. Yüzde 30 kullanımdaki bir GPU, statik güç tüketimi nedeniyle maksimum gücünün yüzde 30'undan önemli ölçüde daha fazla çeker. Çıkarım iş yüklerini daha az sayıda, daha tam kullanılan sunuculara konsolide etmek ve boşta kalan sunucuları kapatmak toplam güç çekmeyi azaltır.
GPU kullanımı ile tesis gücü arasındaki ilişkiyi gerçek zamanlı izleyin. Hem BT gücünü hem de soğutma gücünü birlikte gösteren panolar oluşturarak operatörlerin iş yükü değişikliklerinin genel PUE'yi nasıl etkilediğini görmesini sağlayın.
Güç Dağıtım Verimliliği
Soğutmadan sonra güç dağıtımı, PUE genel giderine ikinci en büyük katkıyı sağlar. Yardımcı program kaynağı ile GPU arasındaki her dönüştürme adımının kayıpları vardır: transformatörler, kesintisiz güç kaynakları (UPS), güç dağıtım birimleri ve voltaj regülatörlerinin hepsi enerjiyi ısı olarak tüketir.
UPS topolojinizi değerlendirin. Geleneksel çift dönüşümlü UPS sistemleri AC'yi sürekli olarak DC'ye ve tekrar geriye dönüştürerek süreçte gücün yüzde 5-10'unu kaybeder. Hat etkileşimli veya eko modlu UPS yapılandırmaları, normal çalışma sırasında yardımcı program gücünü doğrudan BT ekipmanına geçirir ve dönüştürme yolunu yalnızca güç kesintileri sırasında devreye sokar. Eko modlu UPS sistemleri yüzde 98-99 verimlilik elde ederek dağıtım kayıplarının önemli bir kısmını geri kazanır.
Güç dağıtımını gerçek yüke göre doğru boyutlandırın. Transformatörler ve UPS sistemleri, nominal kapasitenin yüzde 40-70'inde en verimli şekilde çalışır. Düşük kullanımda çalışan aşırı boyutlandırılmış güç altyapısı, sabit kayıplarda enerji israf eder.
Tesis içinde daha yüksek voltajlı dağıtımı değerlendirin. Gücü 208V'a düşürmek yerine 400V veya 480V'da rafa dağıtmak akımı azaltır ve dolayısıyla kablolar ve baralardaki dirençli kayıpları azaltır. Birçok modern GPU sunucu güç kaynağı, yüksek voltajlı girişi doğrudan kabul ederek bir dönüştürme adımını tamamen ortadan kaldırır.
Sürekli İyileştirme Programı Oluşturma
PUE optimizasyonu tek seferlik bir proje değildir. Düzenli ölçüm, hedef belirleme ve gözden geçirme döngüleriyle sürekli bir iyileştirme programı oluşturun.
Tesis tipinize ve ikliminize göre gerçekçi bir PUE hedefi belirleyin. Mevcut bir kurumsal veri merkezinin dönüştürülmesi PUE 1.4-1.5'i hedefleyebilirken, serin bir iklimde amaç doğrultusunda inşa edilmiş bir AI hesaplama tesisi 1.2-1.3'ü hedefleyebilir.
PUE eğilimlerini mevsime ve iş yükü karışımına göre takip edin. Mevsimsel değişim, PUE'nizin ortam koşullarına ne kadar bağlı olduğunu ve dolayısıyla serbest soğutma veya ısı geri kazanımının ne kadar etki yaratabileceğini ortaya koyar.
Uygun olan yerlerde enerji geri kazanımına yatırım yapın. GPU hesaplamasının ürettiği ısı önemlidir ve sıvı soğutmayla kullanılabilir sıcaklıklarda yakalanabilir. Soğuk iklimlerdeki kuruluşlar bu ısıyı bina ısıtma sistemlerine yönlendirerek atık bir ürünü maliyet tasarrufuna dönüştürebilir.
Son olarak, yeni AI projeleri için maliyet modeline PUE etkisini dahil edin. Ekipler ek GPU kapasitesi talep ettiğinde, maliyet analizi yalnızca donanım ve yazılım maliyetlerini değil, aynı zamanda tesis gücündeki ve soğutmadaki marjinal artışı da içermelidir. Bu tam maliyet muhasebesi, altyapı yatırım kararlarının AI iş yüklerinin gerçek kaynak tüketimini yansıtmasını sağlar.
Öne çıkan görsel: Lightsaber Collection tarafından Unsplash'ta paylaşılmıştır.