Yazı
Donanima Duyarli Model Secimi: SLM'leri On-Premises Bilgi Isleminizle Eslestirme
Gercek donanim profilinize dayali olarak kucuk dil modellerini secmeye yonelik sistematik bir yaklasim; on-premises dagitimlar icin cikarim hizi, dogruluk ve kaynak kullanimi arasinda denge kurma.
Model-Donanim Uyumsuzlugu Sorunu
Cogu ekip yapay zeka modellerini yazilim kutuphaneleri secermis gibi secer: karsilastirma testlerini okur, en yuksek puanli secenegi secer ve dagitir. Herhangi bir modele uyum saglayacak sekilde olceklenen elastik bulut altyapisinda calistirdiginizda bu yeterince ise yarar. Donanimizin sabit oldugu ve yeni GPU'lar icin butcenizin diger tum altyapi oncelikleriyle rekabet ettigi on-premises'te tamamen basarisiz olur.
Sonuc yaygin bir kaliptir: bir ekip, halka acik bir siralamada en yuksek puani aldigi icin 70 milyar parametreli bir model dagitir ve GPU bellegini doyurdugunu, ayni anda tek bir istege hizmet verdigini ve saniyeler yerine saniyelerle olculen gecikmeyle yanit verdigini kesfeder. Bu sirada, 4-bit'e nicemlenmis 7 milyar parametreli bir model, ayni donanim uzerinde saniyenin altinda gecikmeyle on es zamanli kullaniciya hizmet verirken dogruluk gereksinimlerini karsilayabilirdi.
Donanima duyarli model secimi karar surecini tersine cevirir. Bir model secip sonra nasil calistiracaginizi anlamak yerine, donanim kisitlamalarinizla baslar ve bunlara uyan en iyi modeli bulursunuz. Bu yaklasim, karsilastirma puanlari yerine uretim performansini optimize ettigi icin on-premises dagitimlar icin tutarli olarak daha iyi sonuclar uretir.
Donanim Kisitlamalarinizin Profilini Cikarma
Herhangi bir modeli degerlendirmeden once, mevcut bilgi isleminizin kesin bir profilini olusturun. Temel boyutlar GPU bellegi, bilgi islem verimi, bellek bant genisligi ve ara baglanti hizidir.
GPU bellegi (VRAM) en katli kisitlamadir. Bir modelin cikarim sunmak icin tamamen VRAM'e sigmasi gerekir. Bir FP16 model parametre basina yaklasik 2 bayt gerektirir, dolayisiyla 7B model kabaca 14 GB'a ihtiyac duyar. Niceleme bunu azaltir — 4-bit niceleme bellek gereksinimlerini yaklasik 4 kat keser. Ancak cikarim sirasinda KV onbellegi icin de bellege ihtiyaciniz vardir ve bu dizi uzunlugu ve parti boyutuyla buyur.
Bilgi islem verimi (TFLOPS olarak olculen) modelin token'lari ne kadar hizli urettigini belirler. Gecikmesiz toplu isleme icin daha az, kullanicilarin yanitlari bekledigi etkilesimli uygulamalar icin daha cok onem tasir.
Bellek bant genisligi genellikle LLM cikarimi icin asil darbogazdir. Token uretimi bellege bagli bir islemdir — GPU zamaninin cogunu hesaplama yapmak yerine VRAM'den model agirliklarini okuyarak gecirir. Daha yuksek bellek bant genisligi dogrudan daha hizli token uretimine donusur.
Coklu GPU ara baglantisi, modelleri birden fazla GPU arasinda bolmeyi planliyorsaniz onemlidir. NVLink, GPU'lar arasi iletisim icin PCIe'den onemli olcude daha yuksek bant genisligi saglar. Sunuculariniz yalnizca PCIe coklu GPU yapilandirmalari kullaniyorsa, tek bir GPU'ya sigan daha kucuk bir model secmek daha iyi olabilir.
Sistematik Model Degerlendirme Sureci
Donanim profiliniz tanimblandigindan, aday modelleri once donanim uyumuna sonra gorev performansina gore filtreleyen yapilandirilmis bir surecle degerlendirin.
Adim 1: Bellek zarfini hesaplayin. Her GPU yapilandirmasi icin, hedef parti boyutunuz ve dizi uzunlugunuzda sunabileceginiz maksimum model boyutunu hesaplayin. KV onbellek yolunu dahil edin. Bu size kesin bir tavan verir.
Adim 2: Zarf icindeki aday modelleri belirleyin. SLM manzarasi zengindir. Cogu kurumsal gorev icin 1B ile 14B parametre araligindaki modeller, dogru secildiginde mukemmel performans sunar. Mistral, Llama, Phi, Qwen ve Gemma gibi aileler farkli odunlerle birden fazla boyut noktasi sunar.
Adim 3: Halka acik karsilastirmalara degil, gorevlerinize gore karsilastirin. Halka acik karsilastirmalar (MMLU, HumanEval, MT-Bench) genel yetenegi olcer, belirli is yukleriniz uzerindeki performansi degil. Modelinizin ele alacagi gorevin gercek orneklerinden bir degerlendirme veri seti olusturun.
Adim 4: Gercekci kosullar altinda cikarim performansini olcun. Bosta bir GPU uzerinde tek bir istekle karsilastirma yapmayin. Beklenen es zamanli yukunuzde gecikme, verimlilik ve GPU kullanimini olcun. Surekli toplu isleme ve sayfalanmis dikkat destekleyen vLLM, TGI veya llama.cpp gibi cikarim sunuculari kullanin.
Maksimum Donanim Kullanimi Icin Niceleme Stratejileri
Niceleme, sinirli donanimla daha iyi modelleri yerlestirmek icin en etkili tekniktir. Model agirliklarinin hassasiyetini 16-bit kayar noktadan 4-bit veya daha dusuk tamsayilara indirerek, genellikle iki kat daha buyuk bir modeli — ve dolayisiyla onemli olcude daha yetenekli — ayni bellek butcesi icinde dagitabilirsiniz.
GPTQ ve AWQ (Aktivasyon-farkindaa Agirlik Niceleme) en yaygin desteklenen egitim sonrasi niceleme yontemleridir. Her ikisi de cogu gorevde minimum dogruluk kaybiyla model agirliklarini 4-bit tamsayilara indirir. AWQ, aktivasyon kaliplarina dayali olarak en onemli agirliklara oncelik vererek dogrulugu biraz daha iyi koruma egilimindedir.
GGUF formati (llama.cpp tarafindan kullanilan) niceleme duzeyleri uzerinde ayrintili kontrol sunar. Q2_K'dan Q8_0'a kadar secim yapabilirsiniz; her duzey bellegi dogruluk icin takas eder. Hassasiyetin onemli oldugu gorevler icin (yapiblandirilmis veri cikarimi, kod uretimi) Q5 veya Q6 niceleme cogu dogrulugu korur.
Nicemlenmis modelleri her zaman goreve ozel degerlendirme setinize karsi karsilastirin. Bazi gorevler nicelemeye digerlerinden daha duyarlidir. Matematiksel akil yurutme ve kod uretimi, dogal dil anlamisindan daha hizli bozulma egilimindedir. Nicemlenmis bir model dogruluk esiginizin altina duserse, daha kucuk modelde hassasiyeti artirmak yerine ayni niceleme duzeyinde daha buyuk bir model deneyin.
Karisik hassasiyetli dagitim dusunun: gecikmeye duyarli etkilesimli sorgular icin agir nicemlenmis bir model ve yogun olmayan saatlerde toplu isleme icin ayni modelin daha yuksek hassasiyetli bir surumunu sunun.
Karar Matrisi: Yaygin Donanim Profilleri ve Onerilen Modeller
Optimal model belirli gorevlerinize bagli olsa da, yaygin on-premises donanim yapilandirmalarinda bazi genel kalipler gecerlidir.
Tekli tuketici GPU (24 GB VRAM, ornegin RTX 4090): Q4 nicelemede 14B parametreye kadar veya FP16'da 7B parametreye kadar modeller icin idealdir. Bu katmanda Phi-3 (3.8B) ve Llama 3 (8B) boyutlarina gore olaganust performans sunar. Dizi uzunluguna bagli olarak 5-15 es zamanli kullaniciya hizmet vermeyi bekleyin.
Tekli veri merkezi GPU (40-80 GB VRAM, ornegin A100 veya H100): Q4'te 14B-34B parametre araligini veya FP16'da 14B'yi acar. Mixtral 8x7B gibi karisim-uzmanlari modelleri burada ozellikle verimlidir. Es zamanli kullanici kapasitesi tipik is yukleri icin 30-50'ye ulasir.
Coklu GPU sunucu (2-8 veri merkezi GPU): Tensor paralelligi araciligiyla 70B+ modelleri mumkun kilar. Bu katmanda soru "ne sigar?" yerine "en verimli tahsis nedir?" olur. Bir buyuk model yerine birden fazla kucuk modeli paralel olarak calistirmayi dusunun — uc bagimsiz 14B model genellikle ayni GPU'lara yayilmis bir 70B modelden daha fazla toplam verimlilik sunar.
Yalnizca CPU sunuculari: SLM'ler icin CPU cikarimini kucumsemeyin. Q4 nicelemeli 3B altindaki modeller, yeterli RAM'e sahip modern sunucu CPU'larinda kabul edilebilir hizlarda (saniyede 5-15 token) calisir. Toplu isleme veya gecikmenin milisaniye yerine saniyelerle olculdugu uygulamalar icin CPU cikarimi GPU maliyetlerini tamamen onler.
Modeller ve Donanim Gelistikce Surekli Yeniden Degerlendirme
Donanima duyarli model secimi tek seferlik bir karar degildir. SLM manzarasi hizla hareket eder — yeni bir model surumu performans sinirini onemli olcude degistirebilir. Surekli yeniden degerlendirme icin bir surec olusturun.
Goreve ozel karsilastirmanizi canli bir veri seti olarak surdurun. Kullanim durumlariniz gelistikce yeni ornekler ekleyin. Yeni bir model ailesi hedef boyut araliginizda bir kontrol noktasi yayinladiginda, karsilastirma pipeline'inizdan gecirin. Mevcut modelinizi gorevlerinizde karsilastiirilabilir veya daha dusuk kaynak tuketimiyle gecciyorsa, uretim terfisi icin degerlendirin.
Benzer sekilde, yeni donanim ediniminiz oldugunda model secimlerinizi gozden gecirin. Bir GPU yukseltmesi, anlamli olcude daha iyi performans sunan daha buyuk bir modelin kilidini acabilir. Tersine, donanimi kullanim disi birakiyorsaniz, daha kucuk veya daha agresif nicmlenmis bir modele gecmeniz gerekebilir.
Modellerinizin gercek dunya performansini zaman icinde takip edin, sadece karsilastirmalari degil. Kullanici memnuniyeti, alt gorev dogrulugu ve uretimdeki hata oranlari nihai olcutlerdir. Donanima duyarli model secimi nihayetinde fiziksel kisitlamalariniz icinde en fazla degeri sunan modeli bulmaktir — ve hem model manzarasi hem de donaniminiz gelistikce bu secimi guncel tutmaktir.
Featured image by Lilian Do Khac on Unsplash.