Yazı

On-Premises Yapay Zeka icin Gozlemlenebilirlik: Gercekten Onemli Olan Metrikler, Panolar ve Uyarilar

On-Premises AI · MLOps · Best Practices · AI Architecture · Intermediate

On-premises yapay zeka sistemleri icin kapsamli gozlemlenebilirlik olusturma rehberi: onemli metrikler, pano tasarim kaliplari ve sessiz arizalari onleyen uyari stratejileri.

Veri grafikleri ve sistem metriklerini gosteren izleme ekranlari

Yapay Zeka Gozlemlenebilirligi Neden Geleneksel Izlemeden Farklidir

Geleneksel altyapi izleme, sunucularinizin calisip calismadigini soyler. Yapay zeka gozlemlenebilirligi ise modellerinizin dogru dusunup dusunmedigini soyler. Bu ayrim onemlidir, cunku bir on-premises yapay zeka sistemi tum altyapi metriklerinde yesil gosterebilir — CPU kullanimi normal, bellek stabil, ag saglikli — ve bir yandan da sessizce bozulmus veya zararli ciktilar uretebilir.

Temel neden, yapay zeka sistemlerinin geleneksel yazilimda olmayan bir karmasiklik katmanina sahip olmasidir: model davranisi. Bir web sunucusu ya bir sayfa dondurur ya dondurmez. Bir dil modeli ise akici, guvenlir gorunen ama tamamen yanlis metin uretebilir. Bunu tespit etmek, gozlemlenebilirlige temelden farkli bir yaklasim gerektirir — model kalitesini, calisma suresi ve gecikme yaninda birinci sinif bir metrik olarak ele alan bir yaklasim.

On-premises dagitimlar icin bu zorluk daha da buyuktur cunku tum yigin sizin sorumlulugunuzdadir. Izleme yukunu ustlenen yonetilen bir hizmet yoktur. GPU suruculerinden cikarsama sunucularina, model ciktilarindan denetim izlerine kadar her katman sizin sorumluluk alaninizdadir.

Yapay Zeka Gozlemlenebilirliginin Dort Katmani

On-premises yapay zeka sistemleri icin etkili gozlemlenebilirlik, her biri kendi metrikleri ve araclari gerektiren dort farkli katmanda calisir:

1. Altyapi katmani. Yapay zeka is yuklerinizi calistiran fiziksel ve sanal kaynaklari kapsar: GPU kullanimi ve bellegi, CPU ve sistem bellegi, disk I/O (model yukleme icin kritik), cikarsama dugumleri arasindaki ag verimi ve guc tuketimi. Prometheus ile NVIDIA DCGM Exporter veya ozel toplayicilerla Grafana, bu katmani iyi yonetir.

2. Cikarsama motoru katmani. Sunum altyapisini izler: saniye basina istek, cikarsama gecikmesi (p50, p95, p99), kuyruk derinligi ve bekleme sureleri, parti boyutlari, dil modelleri icin token verimi ve anlamsal onbellekleme kullaniyorsaniz onbellek isabet oranlari. vLLM, Triton Inference Server ve TGI bu metrikleri yerel olarak sunar.

3. Model kalitesi katmani. Yapay zeka gozlemlenebilirliginin geleneksel izlemeden ayristigi yer burasidir: cikti guven dagilimlar, yanit uygunluk puanlari (RAG sistemleri icin), halusinasyon tespit oranlari, guvenlik filtresi tetikleme sikliklari ve mevcut ciktilari temel dagilimlara karsilastiran sapma tespiti.

4. Is etkisi katmani. Yapay zeka performansini organizasyonel degere baglayan metrikler: gorev tamamlama oranlari, kullanici memnuniyet puanlari, otomasyon oranlari (isteklerin yuzde kaci insan mudahalesi olmadan ele alinir) ve cikarsama basina maliyet.

Temel Metrikler ve Toplama Yontemleri

Tum metrikler esit ilgiyi hak etmez. Iste on-premises yapay zeka dagitimlarinda surekli olarak gercek sorunlari ortaya cikaran metrikler:

Ilk Token Suresi (TTFT). Dil modeli uygulamalari icin en onemli gecikme metrigidir. Kullanicilar, sistemleri duyarli veya yavas olarak ilk tokenin ne kadar cabuk gorunduguyle degerlendirir, toplam uretim suresiyle degil. Bunu p95'te izleyin — 95. yuzdelik TTFT'niz 2 saniyeyi asarsa, kullanicilar oturumlari terk etmeye baslar. Cikarsama agidinizi veya yuk dengeleyicinizi araclayarak toplayin.

GPU Bellek Parcalanmasi. Zamanla, tekrarlanan model yukleme ve bosaltma GPU bellegini parcalar ve toplam bos bellek yeterli gorunse bile bellek yetersizligi hatalarina yol acar. Yalnizca toplam bos bellegi degil, en buyuk bitisik bos blogu izleyin. NVIDIA'nin nvidia-smi araci bunu dogrudan sunmaz — DCGM veya ozel CUDA bellek profillemeye ihtiyaciniz vardir.

Cikti Token Dagilimi Kaymasi. Modeliniz aniden tarihsel taban cizgisinden daha kisa veya uzun yanitlar uretmeye baslarsa, bir seyler degismistir — muhtemelen bozuk bir model dosyasi, yapilandirma sapmasi veya giris kaliplarindaki bir degisiklik. Istek basina cikti tokenlerinin kayan ortalamasini izleyin ve iki standart sapmanin otesindeki sapmalarda uyari verin.

RAG Geri Getirme Uygunlugu. Geri getirme destekli uretim sistemleri icin sorgular ve geri getirilen belgeler arasindaki kosinuf benzerligini izleyin. Kademeli bir dusus, gomme modeli sapmasi veya eski dizin verilerini gosterir. Ani bir dusus genellikle bir altyapi sorununa isaret eder — cevrimdisi bir vektor veritabani dugumu veya dizin bozulmasi.

Hata Turune Gore Hata Orani. Tum hatalar esit degildir. Altyapi hatalari (OOM, zaman asimi, donanim arizasi), model hatalari (guvenlik filtresi tetiklemeleri, format ihlalleri) ve kalite hatalari (dusuk guven, kullanici tarafindan bildirilen sorunlar) arasinda ayrim yapin. Her kategorinin farkli temel nedenleri ve cozum yollari vardir.

Sorunlari Erken Ortaya Cikaran Pano Tasarimi

Yaygin bir hata, etkileyici gorunen ancak sorunlari hizla ortaya cikaramayan panolar olusturmaktir. On-premises yapay zeka icin panolarinizi uc gorunum etrafinda tasarlayin:

Operator gorunumu su soruyu yanitlar: "Su anda bozulan bir sey var mi?" Bu, nobet muhendisinin izledigi ekrandir. Gercek zamanli istek oranlari, hata oranlari, gecikme yuzdelikleri, tum dugumlerde GPU kullanimi ve aktif uyarilari gostermelidir. Trafik isigi kodlamasi kullanin: normal icin yesil, bozulmus icin sari, kritik icin kirmizi.

Analist gorunumu su soruyu yanitlar: "Sistem nasil bir egilim gosteriyor?" Bu pano, gunluk ve haftalik egilimler gosterir: zaman icindeki model kalitesi puanlari, kaynak kullanim kaliplari, maliyet metrikleri ve kapasite projeksiyonlari. Olceklendirme kararlarini planlamak ve akut hale gelmeden once kademeli bozulmayi tanimlamak icin haftalik incelemelerde bu gorunumu kullanin.

Hata ayiklama gorunumu su soruyu yanitlar: "Bu belirli istek neden basarisiz oldu?" Bu, dagitik izleme gerektirir. Tum cikarsama hattinizi — istek alimdan on isleme, model secimi, cikarsama, son isleme ve yanit teslimine kadar — izleme kimlikleriyle donatin. Jaeger veya Tempo gibi araclar, tek bir istegi her bilesenin icinden takip etmenize olanak tanir.

Gurultuyu Azaltan Uyari Stratejileri

Uyari yorgunlugu, etkili operasyonlarin dusmandir. Gunluk yuzlerce uyari alan ekipler onlari okumayı birakir. On-premises yapay zeka sistemleri icin katmanli bir uyari stratejisi uygulayin:

Sayfa degerinde uyarilar (birini uyandirin): toplam cikarsama basarizligi, GPU donanim hatalari, model sunum sureci cokmeleri ve guvenlik ihlalleri. Bunlar 60 saniye icinde tetiklenmeli ve PagerDuty veya Opsgenie araciligiyla nobet rotasyonunuza yonlendirilmelidir.

Acil uyarilar (saatler icinde yanit verin): surdurulen gecikme bozulmasi (10 dakikadan fazla SLA uzerinde p95), 15 dakikadan fazla %90 uzerinde GPU bellek kullanimi, model kalitesi puanlarinin esik altina dusmesi. Bunlari bir ekip Slack kanalina yonlendirin.

Bilgilendirme uyarilari (gunluk toplantida gozden gecirin): kucuk gecikme artislari, olagan disi trafik kaliplari, dugumler arasinda model surum uyumsuzluklari. Bunlari gunluk bir ozette biriktirin.

Temel ilke sudur: her uyarinin net bir eylemi olmalidir. Ekip bir uyari alip yanit olarak "gozlemleyecegiz" diyorsa, uyari esigi yanlistir. Ya esigi sikistirin ki uyari gercekten eylem gerektiginde tetiklensin ya da tamamen kaldirin ve metrigi pasif izleme icin bir panoya tasiyin.

Gozlemlenebilirlik Yiginizi Olusturmak

On-premises dagitimlar icin tamamen altyapiniz icinde calisan bir gozlemlenebilirlik yiginine ihtiyaciniz vardir. Kanitlanmis bir kombinasyon sunlari icerir: GPU metrikleri icin NVIDIA DCGM Exporter ile Prometheus, panolar ve uyarilar icin Grafana, log toplama icin Loki, dagitik izleme icin Tempo veya Jaeger ve ciktilarinizi kalite kriterlerinize gore degerlendiren ve puanlari Prometheus'a gonderen ozel bir model kalitesi servisi.

Model kalitesi servisi genellikle kendiniz olusturdugu bilesenidir, cunku belirli kalite gereksinimlerinizi kodlar. Ciktilari degerlendirmek icin daha kucuk bir yargi modeli kullanabilir, RAG geri getirme puanlarini esiklerle karsilastirabilir veya alana ozgu dogrulama kurallari uygulayabilir. Basit baslayin — yanit uzunlugu kontrolleri ve anahtar kelime filtreleme gibi temel bulussal yontemler bile sasirtici sayida sorunu yakalar — ve sisteminiz olgunlastikca sofistikasyon ekleyin.

Hangi yigini secerseniz secin, gozlemlenebilirlik altyapinizin yapay zeka is yuklerinizden izole edildiginden emin olun. GPU kaynaklari icin cikarismayla rekabet eden bir izleme sistemi kendi amacini bozar. Gozlemlenebilirlik yiginiz icin ayri dugumler tahsis edin ve herhangi bir tek yapay zeka cikarsama dugumunun arizasinda hayatta kalabileceginden emin olun.

Featured image by Sajad Nori on Unsplash.