Yazı
Tesis ve Servis Operasyonları İçin Önce SLM Yaklaşımıyla Copilot Tasarımı
Küçük dil modelleriyle hızlı ve güvenilir şirket içi copilot’lar kurup yalnızca gerçekten gerekli durumlarda daha büyük modellere yükseltmenin pratik planı.
Fabrika ve saha ekipleri neden en büyük modelle başlamamalı
Fabrikalar, servis depoları, kamu hizmetleri ya da bakım yoğun operasyonlarda yapay zekâ problemi genellikle “mümkün olan en sofistike cevabı üretmek” değildir. Asıl ihtiyaç; teknisyen bir arızayı teşhis etmeye, doğru prosedürü bulmaya, bir kodu yorumlamaya ya da sonraki adımı belirlemeye çalışırken hızlı, temellendirilmiş ve operasyonel açıdan güvenli bir yanıt vermektir. Bu tür ortamlar küçük dil modelleriyle başlamak için çok uygundur. Sorular dardır, terminoloji tekrar eder, kabul edilebilir gecikme düşüktür ve altyapının çoğu zaman doğrudan işin yapıldığı yere yakın çalışması gerekir.
Büyük modellerin rolü elbette vardır; ancak her operasyonel soruda onları varsayılan motor yapmak genellikle hem yanlış ekonomi hem de yanlış güvenilirlik profili üretir. Büyük modeller daha pahalı GPU kapasitesi ister, hattın veya sahanın yakınına yerleştirilmesi daha zordur ve edge ile merkez veri merkezi arasındaki ağ bağlantısı sıkıştığında yanıt zincirini uzatır. Buna karşılık kuantize edilmiş 3B ile 8B arası bir model; iyi retrieval, sıkı çıktı çerçevesi ve doğru görev seçimiyle sınıflandırma, çıkarım, prosedür bulma, vardiya devir özeti, yedek parça tanımlama ve ilk seviye sorun giderme işlerinde şaşırtıcı derecede güçlü olabilir.
Bu yüzden operasyon ekipleri için doğru soru “en akıllı model hangisi?” değil, “hangi görevleri daha küçük bir model güvenli, hızlı ve sürekli biçimde yapabilir?” sorusudur. Bu ayrım yapıldığında mimari sadeleşir. Küçük model yaygın işleri düşük gecikmeyle karşılar, belirsiz, çok alanlı veya derin muhakeme gerektiren vakalar ise merkezi ve daha güçlü bir modele yükseltilir.
Model seçmeden önce görev sınırlarını tanımlayın
Önce SLM yaklaşımı, ekip görev çerçevesi konusunda disiplinli davrandığında sonuç verir. Başlangıçta operatörlerin ve saha mühendislerinin her gün gerçekten sorduğu soruları listeleyin. Belirtiye göre prosedür bulma, bakım bültenini özetleme, servis raporundan alan çıkarma, alarm kodunu bilinen nedenlerle eşleştirme veya yapılandırılmış vardiya devir notu hazırlama gibi işler iyi adaylardır. Bu görevlerde açıklık ve tutarlılık, açık uçlu yaratıcılıktan daha değerlidir. Ayrıca beklenen çıktı biçimi açık olduğu için kabul testleri yapmak çok daha kolaydır.
Hangi işlerin küçük modelde kalmaması gerektiğini de aynı netlikle belirlemek gerekir. Birden fazla sistemi kapsayan karmaşık kök neden analizi, sözleşme yorumu, tesisler arası optimizasyon kararları veya canlı kurumsal veriyle belirsiz muhakemeyi birleştiren istekler daha büyük modele yükseltme adayıdır. Pek çok başarısız yapay zekâ uygulamasının ortak hatası, tek modele iki farklı rol yüklemektir: bir yandan anlık operasyon desteği, diğer yandan geniş analitik muhakeme. Küçük model ilkinde çok iyi olabilir; yeter ki onu sürekli ikincisini taklit etmeye zorlamayın.
Dil ve saha terminolojisi de belirleyicidir. Pek çok tesiste istekler karma gelir: yerel dilde talimatlar, tedarikçi İngilizcesi, makine kodları ve teknisyen kısaltmaları bir aradadır. Bu nedenle model ailesi seçmeden önce gerçek kurum diliyle test yapmak gerekir. Kendi bakım sözlüğünüz, kısaltmalarınız ve ölçü birimi alışkanlıklarınız üzerinde uyarlanmış küçük bir model, alanı hiç tanımayan daha büyük genel amaçlı bir modelden daha iyi sonuç verebilir. Alan uyumu çoğu zaman parametre sayısından daha değerlidir.
Mimari desen: varsayılan olarak yerel SLM, istisna durumunda merkezi model
Sağlam yaklaşım, küçük modeli işin yapıldığı yere yakın konumlandırmaktır. Bir üretim tesisinde bu, yerel sunucu odasında ya da endüstriyel DMZ içinde çalışan bir inference servisi olabilir. Saha servisinde ise bölgesel edge düğümü veya zaman zaman bağlantı kaybı yaşayabilen bir ağ geçidi uygun olabilir. Bu model niyet sınıflandırma, retrieval ile temellendirme, yapılandırılmış çıkarım ve ilk yanıt üretimi görevlerini üstlenir. Hedefi geniş muhakeme değil, öngörülebilir gecikme ve kontrollü çıktı kalıbıdır.
Arkasında ise onaylı bakım kılavuzları, servis prosedürleri, ekipman geçmişleri ve sorun özetlerinden oluşan retrieval katmanı yer alır. Asistan mümkün olduğunda bu kaynaklardan alıntı veya kaynak işaretiyle yanıt vermelidir. Yerel SLM güven eşiğini geçemezse, soru birden fazla alanı kapsıyorsa veya kullanıcı iş riski taşıyan bir aksiyon talep ediyorsa, orkestrasyon katmanı isteği ana şirket içi kümeye taşır. Daha büyük model burada devreye girer; daha geniş bağlam, daha güçlü hesaplama ve daha zengin kurumsal araç erişimi sunabilir, fakat yalnızca iş akışı kuralları maliyetini haklı kıldığında çağrılır.
Bu kurgu verimli bir kademe yapısı oluşturur. Yerel model disiplinli ilk müdahale noktası gibi davranır. Merkezi model ise her soruya koşan varsayılan motor değil, gerektiğinde başvurulan uzman kapasite olur. llama.cpp CPU dostu dağıtımlar için, vLLM veya TensorRT-LLM GPU verimliliği gereken yerler için mantıklı seçenekler olabilir. Ancak belirleyici olan model sunucusunun markası değil; yükseltme kurallarının açık, kayıtlı ve test edilebilir olmasıdır.
İstemi değil, platformu optimize ettiğinizde asıl fark ortaya çıkar
Pek çok ekip zayıf performans gösteren SLM’i daha uzun istemlerle kurtarmaya çalışır. Bu bazı durumlarda yardımcı olur; fakat büyük kazanımlar genellikle platform kararlarından gelir. Kuantizasyon, hedef görevlerde doğruluk kabul edilebilir düzeyde kaldığında donanım baskısını ciddi biçimde azaltabilir. Adaptör tabanlı ince ayar, tam bir özel model dalı yönetmeden kurum terimlerini daha iyi yakalamayı sağlar. Retrieval parçalaması rastgele sayfa uzunluklarına göre değil; prosedürler, kontrol listeleri ve arıza ağaçları etrafında yapıldığında daha işe yarar. Basit yanıt şablonları bile güvenilirliği artırır; çünkü teknisyen çoğu zaman her seferinde benzer yapıyı ister: olası neden, gerekli kontrol, güvenlik notu, sonraki adım.
Koruma katmanları burada da kritiktir. Bir tesis copilot’u kaynaklarda yoksa tork değeri uydurmamalı, lockout-tagout kuralını dolanmamalı veya ekipman parametresi değiştirmeyi keyfi biçimde önermemelidir. Sistem, onaylı prosedür setinden doğrulayamadığı durumda bunu açıkça söylemeli; zayıf delile rağmen kendinden emin görünmemelidir. Bunun için platformun temellendirilmiş yanıt zorlaması, reddetme kuralları ve gerektiğinde daha büyük modele ya da insana yükseltme desteği vermesi gerekir. En güvenli sistem her soruya cevap veren değil; cevap vermemesi gerektiğini bilen sistemdir.
Pratikte en iyi yöntemlerden biri, gerçek operasyonlardan alınmış altın test vakalarını saklayıp her model, kuantizasyon seviyesi ve retrieval değişikliği için tekrar çalıştırmaktır. Yeni model daha hızlı olabilir; ama güvenlik adımlarını atlıyorsa ya da ölçü birimlerini yanlış okuyorsa üretime çıkmamalıdır. Operasyonel yapay zekâ, diğer üretim kontrol sistemleri kadar sıkı yönetilmelidir.
Copilot’un gerçekten değer ürettiğini nasıl anlarsınız
Sistemi operasyonun zaten kullandığı ölçütlerle değerlendirin. İlk yanıt gecikmesi, yükseltme olmadan çözülen istek oranı, kaynak gösterme kapsaması, vardiya devir notlarının bütünlüğü, aynı sorun için tekrarlanan bilgi aramalarındaki azalma ve testlerde yakalanan güvensiz yanıt sayısı anlamlı göstergelerdir. Şişirilmiş benchmark iddialarına ihtiyacınız yoktur. Teknisyen doğru prosedüre daha hızlı ulaşıyorsa ve amirler daha az belirsiz devir notu görüyorsa mimari değer üretiyor demektir.
Etkili yaygınlaştırma için en iyi yaklaşım, kapsamı başta dar tutmaktır. Örneğin tek bir üretim hattı, tek bir ekipman ailesi veya tek bir servis akışıyla başlayın. Retrieval tabanını dikkatle kurun, küçük modeli gerçek sorularla test edin ve kapsam dışı her şey için sıkı yükseltme kuralları tanımlayın. Ekip sistemin hata davranışına güvendikçe ikinci ekipman setini veya ikinci tesisi ekleyin. Bu kademeli büyüme on-prem ortamlarda özellikle önemlidir; çünkü yerel altyapı kapasitesi, bağlantı kalitesi ve belge kalitesi sahadan sahaya değişir.
Asıl ders şudur: Önce SLM demek, daha zayıf çözümü kabul etmek demek değildir. Bu, model boyutunu işe uydurmak demektir. Tesis ve servis operasyonlarında bu yaklaşım çoğu zaman daha iyi bir sistem üretir: daha hızlı yanıt, daha kolay dağıtım, daha net maliyet kontrolü ve merkezi premium hesaplamaya daha az bağımlılık. Büyük modellerin yeri vardır; ancak onların ek muhakeme gücü gerçekten sonucu değiştiriyorsa devreye girmeleri gerekir, küçük ve iyi temellendirilmiş bir modelin zaten yeterli olduğu her yerde değil.
Kapak görseli, Dimitri Karastelev tarafından çekilmiş ve Unsplash üzerinde yayımlanmıştır.