Yazı

Kurum İçi Yapay Zeka Kümelerinde GPU Altyapısı İçin Öngörücü Bakım

On-Premises AI · Energy Efficiency · Best Practices · AI Architecture

Kurum içi yapay zeka kümelerindeki GPU donanımı için telemetri verilerini kullanarak arızaları önceden tahmin eden ve üretim kesintileri yaşanmadan değişimleri planlayan öngörücü bakım stratejileri nasıl uygulanır.

GPU altyapı bakımını temsil eden bilgisayar donanımı yakın çekimi

Planlanmamış GPU Arızalarının Maliyeti

Üretim yapay zeka kümesindeki tek bir GPU arızası asla sadece bir donanım problemi değildir. Bir eğitim işi sırasında GPU arızalanırsa, son kontrol noktasından bu yana biriken hesaplamayı kaybedersiniz — pahalı donanımda potansiyel olarak saatlerce süren çalışma. Çıkarım sunumu sırasında olduğunda, istekler ya kalan sağlıklı GPU'ların arkasında kuyrukta bekler ya da yedeklilik modelinize bağlı olarak tamamen başarısız olur. Tensör paralelliği kullanan çoklu GPU çıkarım kurulumlarında, bir GPU'nun kaybedilmesi tüm model örneğini devre dışı bırakır çünkü hesaplama gruptaki tüm GPU'lara dağıtılmıştır.

Finansal etki arızalanan donanımın ötesine uzanır. Kurumsal GPU'ların acil tedariki haftalar, yüksek talep dönemlerinde bazen aylar alır. Hızlandırılmış kargo ve mesai dışı teknisyen çalışması maliyete eklenir. Bu arada ekip, iş yüklerini kalan kapasiteye yeniden dağıtmak için çabalar ve genellikle düşük öncelikli ama yine de değerli çalışmaları yerinden eder. Kurum içi yapay zeka altyapısını ölçekte çalıştıran kuruluşlar, planlanmamış GPU arızalarının en yüksek maliyetli operasyonel olayları arasında olduğunu bildiriyor — bireysel arızalar felaket olduğu için değil, kesinti akışını reaktif olarak yönetmek pahalı olduğu için.

Öngörücü bakım, gerçekten arızalanmadan önce arızalanması muhtemel GPU'ları tespit ederek, planlı bakım pencerelerinde değişimleri planlamanıza ve iş yüklerini proaktif olarak taşımanıza olanak tanıyarak bu denklemi değiştirir.

Arızayı Öngören Telemetri Sinyalleri

Modern GPU'lar, NVIDIA'nın NVML (NVIDIA Management Library) ve DCGM (Data Center GPU Manager) gibi arayüzleri aracılığıyla zengin telemetri sunar. Zorluk veri toplamak değildir — hangi sinyallerin yaklaşan arızaları normal operasyonel varyasyona karşı güvenilir bir şekilde öngördüğünü bilmektir.

ECC bellek hataları en güçlü arıza öngörücüsüdür. GPU'lar, tek bitlik hataları sessizce düzeltebilen hata düzeltme kodlu bellek kullanır. Düzeltilebilir ECC hatalarındaki kademeli artış (nvidia-smi aracılığıyla uçucu ve toplam sayılar olarak izlenir) bellek hücre bozulmasına işaret eder. Düzeltilebilir hata oranları GPU'nun tarihsel taban çizgisini önemli ölçüde aştığında, anında hesaplama arızasına neden olan düzeltilemez bir hata olasılığı kayda değer şekilde artar. Hem mutlak hata sayısını hem de artış oranını izleyin; hata birikimindeki ani bir hızlanma, sabit düşük bir orandan daha endişe vericidir.

Termal döngü kalıpları mekanik stresi ortaya koyar. Düşük ve yüksek sıcaklıklar arasında sürekli gidip gelen GPU'lar — kesintili iş yüklerine sahip kümelerde yaygındır — sabit bir sıcaklıkta çalışan GPU'lardan daha hızlı lehim bağlantı yorulması yaşar. Sadece tepe sıcaklığını değil, termal döngülerin sıklığını ve genliğini de izleyin. Günde yirmi kez 30°C ile 85°C arasında döngü yapan bir GPU, sürekli 75°C'de sabit duran birinden daha hızlı termal stres biriktirir.

Güç tüketimi anomalileri elektriksel bozulmaya işaret eder. Bileşenler yaşlandıkça güç çekme özellikleri değişir. Tarihsel olarak tam yük altında 280W tüketen ama şimdi aynı iş yükü için 310W çeken bir GPU, bozulmuş bileşenleri telafi ediyordur. Güç verimliliğini gerçekleştirilen hesaplama (FLOPS veya saniyede belirteç) ile tüketilen watt oranı olarak izleyin — düşen bir oran, mutlak performans kararlı görünse bile donanım bozulmasına işaret eder.

PCIe bağlantı hataları ve NVLink CRC hataları (çoklu GPU sistemlerinde) iletişim altyapısı sorunlarına işaret eder. Bu hatalar kablo bozulması, konnektör oksidasyonu veya kontrolör arızalarından kaynaklanabilir. Bağlantı hatalarındaki yükselen bir eğilim genellikle GPU'yu çevrimdışına alan tam bir iletişim arızasını önceler.

İzleme Hattını Oluşturma

GPU telemetrisini, mevcut izleme yığınınıza beslenen DCGM dışa aktarıcıları kullanarak 10 ila 30 saniyelik aralıklarla toplayın. Prometheus ile DCGM Exporter en yaygın açık kaynak yaklaşımdır, ancak kardinaliteyi kaldırabilen herhangi bir zaman serisi veritabanı işe yarar. Her GPU düzinelerce metrik üretir ve yüzlerce GPU'ya sahip bir küme önemli telemetri hacmi üretir — depolama tutma sürenizi buna göre planlayın.

Ham telemetri, tahmin için kullanışlı olmadan önce dönüşüme ihtiyaç duyar. Her metrik için birden fazla zaman penceresi üzerinde kayan istatistikler hesaplayın: saatlik, günlük ve haftalık ortalamalar ve standart sapmalar. Günlük ve haftalık toplamlar normal iş yükü varyasyonunu düzleştirir ve gerçek eğilimleri ortaya koyar. Bu toplamları ham verilerin yanında türetilmiş metrikler olarak saklayın.

Filonuzdaki her GPU modeli için temel profiller oluşturun. Yeni bir NVIDIA H100, iki yıldır çalışan bir A100'den farklı normal çalışma parametrelerine sahiptir. GPU'ları model ve yaş grubu bazında gruplandırın ve her metrik için grup düzeyinde taban çizgileri hesaplayın. ECC hata oranı grubunun ortalamasından üç standart sapma yukarıda olan bir GPU, mutlak sayı küçük görünse bile araştırmayı hak eder.

Donanım telemetrisini iş yükü meta verileriyle entegre edin. Büyük bir eğitim işi çalıştırırken yüksek sıcaklıklar gösteren bir GPU normal davranıyordur. Boştayken aynı yüksek sıcaklıkları gösteren aynı GPU normal değildir. İş yükü bağlamı olmadan, yük kaynaklı metrik değişikliklerini bozulma kaynaklı olanlardan ayırt edemezsiniz. Her telemetri veri noktasını toplama anında o GPU üzerinde çalışan iş yükü türüyle etiketleyin.

Uyarılardan Değişim Planlamasına

Öngörücü bakım, yalnızca donanımı arızalanmadan önce gerçekten değiştiren operasyonel bir iş akışına bağlandığında değerlidir. Tahmin hattı, her GPU için bir sağlık puanı üretmelidir — tüm bozulma sinyallerini 0 (sağlıklı) ile 1 (yakın arıza) arasında tek bir değerde birleştiren bileşik bir metrik. Bileşen sinyallerini ortamınızdaki gerçek arızalarla tarihsel korelasyonlarına göre ağırlıklandırın.

Sağlık puanına dayalı üç operasyonel bölge tanımlayın. Yeşil bölge (puan 0,3'ün altında) eylem gerektirmez — GPU normal çalışıyordur. Sarı bölge (0,3 ile 0,7 arası) gelişmiş izlemeyi tetikler: telemetri toplama sıklığını artırın, GPU'yu izleme listesine ekleyin ve normal tedarik kanalları aracılığıyla bir yedek temin etmeye başlayın. Kırmızı bölge (0,7'nin üzerinde) aktif iş yükü taşımayı tetikler: GPU'daki çalışan işleri boşaltın, yeni iş planlamayı durdurun ve yedek tedariğini önceliklendirin.

Sarı bölge tetikleyicisini tedarik sisteminize bağlayın. Kurumsal GPU tedarik süreleri uzun olabilir ve GPU sarı bölgeye girdiğinde satın alma sürecini başlatmak, arızalanmadan önce elinizde bir yedek bulundurma şansınızı en üst düzeye çıkarır. Filonuzdaki her GPU modelinden küçük bir tampon stok bulundurun — iki veya üç yedek birim bile planlı bir değişim ile acil bir durum arasındaki farkı yaratabilir.

Değişimleri planlı bakım pencerelerinde planlayın. Etkilenen GPU üzerinde iş yükleri çalışan ekiplerle koordine olun. Eğitim iş yükleri için bu, bir kontrol noktası kaydetme ve sağlıklı bir GPU'ya taşıma anlamına gelir. Çıkarım iş yükleri için bu, bozulan GPU kullanan örnekten trafiği çevrimdışına almadan önce kademeli olarak yönlendirme anlamına gelir. Operasyonel hedef, donanım arızalarından kaynaklanan sıfır planlanmamış kesinti süresidir.

Arıza Verilerinden Öğrenme

Her GPU arızası — öngörülmüş olsun ya da olmasın — tahmin modelinizi iyileştiren bir veri noktasıdır. Bir GPU beklenmedik şekilde arızalandığında, telemetri geçmişinin geriye dönük bir analizini yapın. Tahmin sisteminin kaçırdığı sinyaller var mıydı? Bir eşik çok muhafazakar mı ayarlanmıştı? İzlemenizin tespit etmek üzere yapılandırılmadığı yeni bir arıza modu mu vardı?

Öngörülen bir arıza doğrulandığında (sarı bölge veya kırmızı bölge GPU'su değiştirilir ve olay sonrası analiz bozulmayı doğrular), tahmini tetikleyen telemetri imzasını kaydedin. Zamanla, donanım modellerinize ve işletme ortamınıza özgü bir arıza imzaları kütüphanesi oluşturun. Optimal altı soğutmaya sahip bir tesiste sürekli çıkarım iş yükleri çalıştıran bir GPU, iyi soğutulan bir veri merkezinde kesintili eğitim işleri çalıştıran aynı GPU modelinden farklı bir arıza imzası geliştirecektir.

Arıza verilerini anonim olarak donanım tedarikçinizle paylaşın. Tedarikçiler arıza raporlarını müşteri tabanları genelinde toplar ve parti düzeyinde kusurları tespit edebilir — normalden daha yüksek arıza oranlarına sahip belirli bir üretim serisi GPU veya hızlanmış bellek bozulmasına neden olan bir ürün yazılımı sürümü. Bu geri bildirim döngüsü tüm ekosisteme fayda sağlar ve GPU'larınız arızalanmadan önce proaktif garanti değişimleri için sizi nitelendirebilir.

Finansal Etki ve Filo Planlaması

Öngörücü bakımın değerini iki metriği izleyerek ölçün: önlenen planlanmamış kesinti saatleri ve uzatılan faydalı donanım ömrü. İlk metrik, sürpriz arızaları ortadan kaldırmanın doğrudan tasarruflarını yakalar. İkincisi, genellikle gözden kaçan bir faydayı yakalar: öngörücü bakım, muhafazakar değişim takvimlerinin ötesinde GPU hizmet ömrünü güvenle uzatmanıza olanak tanır. Politikanız GPU'ları üç yıldan sonra değiştirmekse ama telemetri çoğu birimin dört yılda sağlıklı olduğunu gösteriyorsa, yaş tabanlıdan durum tabanlı değişime geçebilir ve sağlıklı donanımdan ek bir yıl değer çıkarabilirsiniz.

Tedarik planlamasını bilgilendirmek için filo düzeyinde telemetri kullanın. Tahmin sisteminiz A100 filonuzun yüzde 15'inin önümüzdeki altı ay içinde sarı bölgeye gireceğini gösteriyorsa, proaktif olarak bütçe ayırabilir ve yedekleri sipariş edebilirsiniz. Bu uzun ufuklu bakış, GPU tedariğini reaktif bir acil durumdan öngörülebilir bir sermaye harcamasına dönüştürür — finans ekiplerinin tam olarak tercih ettiği şey budur.

Öngörücü bakım ayrıca altyapı tasarım kararlarına da geri bildirim sağlar. Belirli raf konumları sürekli olarak daha yüksek termal döngü ve daha erken bozulma gösteren GPU'lar üretiyorsa, bu o konumlarda bir soğutma sorunu olduğunun sinyalidir. Belirli PCIe anahtarlarına bağlı GPU'lar daha yüksek bağlantı hata oranları gösteriyorsa, bu bir anahtar veya kablolama sorunu olduğunu düşündürür. Bakım tahmini için oluşturulan telemetri hattı, tüm altyapı için bir tanılama aracı haline gelir.

Öne çıkan görsel: Erik Gazi, Unsplash.