AI İş Yükleri için Termal Yönetim Neden Önemlidir

Büyük dil modeli çıkarımı çalıştıran modern GPU kümeleri, güvenli çalışma sınırlarını kolaylıkla aşabilir. GPU'lar aşırı ısınma nedeniyle daraltma yaptığında, çıkarım gecikmesi öngörülemez şekilde yükselir, SLA garantileri bozulur ve donanım ömrü önemli ölçüde kısalır. Ancak birçok kuruluş, yerel AI dağıtırken termal yönetimi bir tesis sorunu olarak ele alır ve zamanlama katmanı problemi olarak görmez.

Gerçek şu ki, akıllı iş yükü yerleştirme ve zamanlama, verimlilikten ödün vermeden tepe termal yükleri %20-35 oranında azaltabilir. Orkestrasyon katmanınızı termal farkındalıklı hale getirerek, soğutmayı reaktif bir kısıtlamadan proaktif bir optimizasyon boyutuna dönüştürürsünüz. Bu yaklaşım özellikle bitişik kartlar arasındaki termal bağlaşımın önemli olduğu NVIDIA DGX kümeleri veya özel çoklu GPU düğümleri gibi yoğun GPU yapılandırmaları çalıştıran kuruluşlar için kritiktir.

AI İş Yüklerinin Termal Profillerini Anlamak

Tüm AI iş yükleri eşit miktarda ısı üretmez. Büyük bağlam pencereli toplu çıkarım, tüm GPU hesaplama birimlerinde sürekli yüksek güç çekimi üretir. Buna karşın, kısa istemlerle gerçek zamanlı çıkarım, hızlı ısınma ve soğuma döngüleriyle kesikli termal desenler oluşturur. İnce ayar iş yükleri ise sürekli ileri ve geri geçişler nedeniyle en yüksek sürekli termal yükleri üretir.

İş yüklerinizi termal kategorilere göre profilleme, akıllı zamanlama yolundaki ilk adımdır. Pratik bir sınıflandırma sistemi şunları içerebilir: sürekli-yüksek (ince ayar, uzun bağlamlı toplu işler), kesikli-yüksek (değişken yüklü gerçek zamanlı çıkarım), orta-sürekli (gömme üretimi, sınıflandırma) ve düşük (model yükleme, ön işleme). Her kategori, termal birikim önlemek için farklı zamanlama stratejileri gerektirir.

NVIDIA DCGM (Data Center GPU Manager) gibi araçlar, kavşak sıcaklığı, bellek sıcaklığı ve güç çekimi dahil GPU başına gerçek zamanlı termal telemetri sağlar. Bu telemetriyi zamanlayıcınızın karar döngüsüne entegre etmek, termal farkındalıklı yerleştirme için vazgeçilmezdir.

Termal Farkındalıklı Zamanlama Politikalarının Uygulanması

Termal farkındalıklı bir zamanlayıcı, geleneksel kaynak tabanlı zamanlamayı sıcaklık kısıtlamalarıyla genişletir. Temel prensip basittir: bir iş yükünü GPU'ya yerleştirmeden önce, yalnızca mevcut bellek ve hesaplama kapasitesini değil, aynı zamanda mevcut termal durumu ve öngörülen termal gidişatı da kontrol edin.

Uygulama tipik olarak üç bileşen içerir:

Termal bütçe takibi: Her GPU, mevcut sıcaklık, son güç çekimi geçmişi ve fiziksel konumunun ortam soğutma kapasitesinden hesaplanan bir döner termal bütçe tutar. Bir GPU'nun termal bütçesi tükendiğinde, zamanlayıcı onu yüksek termal iş yükleri için geçici olarak kullanılamaz olarak değerlendirir.

İş yükü termal maliyet tahmini: Geçmiş profillemeye dayanarak, her iş yükü türü tahmini bir termal maliyet taşır. Zamanlayıcı, bir iş yükünün yerleştirilmesinin GPU'yu beklenen yürütme penceresi içinde termal bütçesinin ötesine itip itmeyeceğini tahmin etmek için bunu kullanır.

Termal yayılma: İş yüklerini en az sayıda GPU'ya sıkıştırmak yerine (bu termal yoğunluğu maksimize eder), termal farkındalıklı bir zamanlayıcı yüksek termal iş yüklerini fiziksel düğümler arasında dağıtarak her GPU için yeterli termal toparlanma süresi sağlar.

Kubernetes Entegrasyonu: Termal Kısıtlamalarla Özel Zamanlama

Kubernetes üzerinde AI iş yükleri çalıştıran kuruluşlar için termal farkındalıklı zamanlama uygulamak, varsayılan zamanlayıcıyı genişletmek anlamına gelir. En pratik yaklaşım, pod'ları düğümlere bağlamadan önce termal telemetriye başvuran özel bir zamanlayıcı genişletici veya zamanlama eklentisi kullanır.

Tipik bir mimari, Prometheus üzerinden NVIDIA DCGM Exporter metriklerini entegre eder ve özel bir puanlama eklentisini besler. Eklenti, GPU sıcaklıklarının yapılandırılabilir eşikleri aştığı veya termal gidişatın (son 5-10 dakikadaki sıcaklık artış hızı) yakın daraltmayı önerdiği düğümleri cezalandırır.

Zamanlama çerçevenizde özel kaynak sınıfları tanımlamayı düşünün:

gpu-thermal-budget: GPU sıcaklığı yükseldikçe azalan tahsis edilebilir bir kaynak. İş yükleri belirli bir termal bütçe talep eder ve zamanlayıcı onları yalnızca yeterli kalan bütçeye sahip düğümlere yerleştirir. Bu, zamanlama altyapınızın toptan yükseltilmesini gerektirmeden termal farkındalığı mevcut Kubernetes kaynak semantiklerine zarif bir şekilde entegre eder.

Üretim dağıtımları için, aynı termal bölgeyi veya bir kasa içindeki soğutma yolunu paylaşan GPU'lara birden fazla yüksek termal iş yükü yerleştirmekten kaçınmak için termal puanlamayı topoloji farkındalıklı zamanlamayla birleştirin.

Soğutma-Hesaplama Koordinasyon Stratejileri

En etkili termal yönetim, zamanlama kararlarını soğutma altyapısıyla koordine eder. Modern sıvı soğutmalı GPU rafları, düğüm başına soğutucu akış hızlarını ayarlayabilir ve hesaplama zamanlayıcısı ile soğutma sistemi arasında çift yönlü iletişim fırsatı yaratır.

Zamanlayıcının soğutma kontrolörünü planlanan iş yükü yerleştirmeleri hakkında bilgilendirdiği bir soğutma-hesaplama geri bildirim döngüsü uygulayın; böylece termal yükler gerçekleşmeden önce önceden soğutma ayarlamaları yapılabilir. Bu özellikle iş yükü dağıtımından 2-3 dakika önce hedef düğümleri önceden soğutabileceğiniz öngörülebilir başlangıç zamanlarına sahip toplu iş yükleri için değerlidir.

Hava soğutmalı ortamlar için ana kontrol mekanizması iş yükü zamanlaması ve dağıtımıdır. Yüksek termal iş yüklerini ortam veri merkezi sıcaklıklarının en düşük olduğu dönemlerde zamanlayın (birçok iklimde genellikle gece). Yoğun iş yüklerini GPU grupları arasında döndüren termal rotasyon politikaları uygulayın; böylece her gruba genel küme verimi korurken toparlanma süresi verilir.

Ölçekte çalışan kuruluşlar bir termal başlık yedekliği tutmayı düşünmelidir: tepe termal dönemlerde GPU kapasitesinin %10-15'ini kasıtlı olarak zamanlamadan tutmak. Bu yedeklik, bir GPU'daki daraltmanın işi komşu GPU'lara ittiği ve küme genelinde termal domino etkisi yarattığı kaskad senaryolarını önler.

Başarıyı Ölçmek: Temel Termal Zamanlama Metrikleri

Termal farkındalıklı zamanlama etkinliğinizi değerlendirmek için şu metrikleri takip edin: Daraltmasız çalışma süresi, GPU'ların daraltma eşiklerinin altında çalıştığı sürenin yüzdesini ölçer. Küme genelindeki termal varyans, ısının ne kadar eşit dağıtıldığını gösterir. Soğutma enerji oranı, soğutma güç tüketiminin hesaplama güç tüketimine oranını takip eder. Uygulama katmanındaki gecikme tutarlılığı, termal yönetimin öngörülebilir çıkarım performansına dönüşüp dönüşmediğini ortaya koyar.

İyi uygulanmış bir termal farkındalıklı zamanlama sistemi, değişen yük koşullarında GPU kavşak sıcaklıklarını hedef çalışma sıcaklığının 5-8 derece Celsius içinde tutmalıdır. Bu stabilite doğrudan tutarlı çıkarım gecikmesine ve öngörülebilir donanım yaşam döngüsüne dönüşür; bu da onu sürekli yerel AI iş yükleri çalıştıran kuruluşlar için en yüksek YG'li altyapı yatırımlarından biri yapar.

Öne çıkan görsel: Tyler tarafından Unsplash'ta paylaşılmıştır.

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

Yerel AI Kümeleri için Termal Farkındalıklı GPU Zamanlaması