Neden tek bir güvenlik modeli yeterli değildir?

Pek çok ekip tek bir içerik sınıflandırıcısını — bir güvenlik LLM'i, moderasyon modeli veya kural motorunu — benimser ve buna "guardrail" der. Kurum içi dağıtımlar bu desenin sınırlarını hızla ortaya çıkarır. Tek bir kontrol noktası; meşru bir politika sorusunu veri çıkarma girişiminden ayırmayı, araç düzeyinde izinleri uygulamayı, bir transkripte PII redaksiyonu yapmayı ve uzun süreli bir ajan konuşmasını denetlemeyi aynı anda yapamaz. Guardrails bir servis değil, bir mimaridir.

Amaç katmanlı savunmadır: her katmanın denetlenebilecek kadar basit ve istek yolunda kalabilecek kadar hızlı olduğu birden fazla bağımsız kontrol. Her şey kurum içinde çalıştığında; gecikme bütçesini, model seçimlerini ve günlükleme sınırlarını siz belirlersiniz. Bu da gerçek anlamda katmanlı bir tasarımı hayal olmaktan çıkarıp uygulanabilir hâle getirir.

Birinci katman: girdi sınıflandırma ve normalleştirme

Bir istem akıl yürütme modeline ulaşmadan önce bir girdi kapısı düşük maliyetli ve yüksek sinyalli kontrolleri yapmalıdır. Bunlar tipik olarak dil tespiti, PII ve sır taraması, izinli kullanım alanlarına göre konu sınıflandırması ile uzunluk ve token bütçesi kontrolleridir. Sınıflandırıcının kendisi için küçük bir kodlayıcı model veya Llama Guard tarzı damıtılmış bir politika modeli çoğu zaman yeterlidir ve asıl LLM maliyetinin küçük bir oranında çalışabilir.

Saldırgan biçimde normalleştirin. Sıfır genişlikli karakterleri, homoglifleri ve talimat kaçırmaya yarayan gizli markdown'ı kaldırın. Boşluk ve unicode normalizasyonunu yapın ki sonraki desen eşleştirmeleri tutarlı çalışsın. Orijinal isteği normalleştirilmiş sürümle birlikte saklayın; böylece denetçiler kullanıcının tam olarak ne gönderdiğini sonradan yeniden oluşturabilir.

Reddederken sessiz değil, açık olun. Girdi engellendiğinde kullanıcının desteğe iletebileceği yapılandırılmış bir sebep ve korelasyon kimliği döndürün. Sessiz retler destek kaydı üretir; açık retler öğrenebileceğiniz geri bildirim üretir.

İkinci katman: kural-olarak-kod ve araç izinleri

Bir istek kabul edildikten sonra politika, sistem isteminde serbest metin olarak yaşamamalıdır. Politikayı uygulamanın yanında yapılandırılmış kurallar olarak kodlayın: hangi araç, hangi kullanıcı rolü tarafından, hangi veri sınıflandırmalarına karşı, hangi onay gereksinimleriyle çağrılabilir? OPA (Open Policy Agent) gibi motorlar ya da NVIDIA NeMo Guardrails gibi amaç odaklı çerçeveler bu kuralları incelenebilir, test edilebilir ve sürüm kontrollü hâle getirir.

Politikayı isteme değil, kimliğe bağlayın. Çalışma zamanı çağırıcısının bir kimliği — kullanıcı, servis hesabı veya devredilmiş bir ajan kimliği — olmalı ve her araç çağrısı bu kimliğe göre değerlendirilmelidir. LLM'ler zaman zaman istemlerinin yetkilendirmediği araç çağrıları üretir; kural-olarak-kod, bunu çağrı çalışmadan önce yakalamanın yoludur.

"Ajan, istemi izin verdiği her şeyi yapabilir" yerine her iş akışı için ayrı izin listeleri kullanın. Bir doküman özetleme ajanının veritabanına yazma araçlarına, bir bilet triyaj ajanının da kabuk yürütmeye ihtiyacı yoktur.

Üçüncü katman: çıktı doğrulama ve yapılandırılmış kod çözme

Çıktı guardrails'leri, model serbest metin yerine kısıtlanmış yapılar ürettiğinde çok daha kolay değerlendirilir. Alt sistem belirli bir şekil bekliyorsa JSON şemaları, düzenli ifade kısıtlamaları veya dilbilgisi tabanlı kod çözme (ör. llama.cpp veya vLLM'in desteklediği gramerler) kullanın. Ayrıştırılamayan bir yanıt, bir insana veya başka bir sisteme ulaşmadan reddedilir.

Serbest metin yanıtlar için bir çıktı sınıflandırıcısı ve bir dayanak kontrolü çalıştırın. Sınıflandırıcı; politika ihlallerini, sızdırılan sırları veya izinsiz içerikleri arar. Dayanak kontrolü, RAG iş yüklerinde yanıtın erişilen dokümanlar tarafından desteklendiğini doğrular — küçük bir doğrulama modeli veya yanıt parçaları ile erişilen parçalar arasında gömme benzerliği kontrolü kurum içinde güvenilir biçimde çalışır.

Bir yanıt doğrulamadan geçemediğinde, mümkünse deterministik onarım tercih edin: bozuk alanı çıkarın, daha dar bir istemle yeniden çalıştırın veya hazır bir yanıta geri dönün. Sınırsız yeniden üretim döngüleri hem gecikme sıçramalarının hem de maliyet sürprizlerinin yaygın kaynağıdır.

Dördüncü katman: çalışma zamanı izlemesi ve kayma tespiti

Telemetrisiz dağıtılan guardrails sessizce bozulur. Her katmanı yapılandırılmış olaylarla enstrümante edin: girdi kapısı kararları, politika değerlendirmeleri, araç çağrıları, çıktı doğrulamaları ve onarım eylemleri. Bunları kurum içi günlükleme yığınınıza oturum ve müşteri bağlamıyla gönderin ki incelemeler bir konuşmayı uçtan uca takip edebilsin.

Sadece model davranışını değil, guardrail davranışındaki kaymayı da izleyin. Reddetme oranlarındaki, sınıflandırıcı güven değerlerindeki veya politika ret dağılımlarındaki ani değişimler genellikle üç şeyden birini gösterir: bir model güncellemesi, bir korpus değişikliği veya yeni bir saldırı paterni. Üçü de alarm yolu hak eder ve hiçbiri ham istem günlüklerinden tek başına teşhis edilemez.

İstemlerde, modellerde veya politikalarda her değişiklikte staging üzerinde çalışan kırmızı takım regresyon testleri planlayın. Bu testlere güvenlik taramaları gibi davranın: ya geçer ya da sürümü engeller.

Beşinci katman: yüksek etkili eylemler için insan onayı

Otomatik katmanlarınız ne kadar iyi olursa olsun, bazı eylemler açık insan onayı gerektirir: finansal işlemler, erişim yetkisi değişiklikleri, kurum adına dış iletişim veya geri alınamaz veri operasyonları. Kurum içi ajan platformları; bir inceleyicinin onay öncesi tam bağlamı — kullanıcı isteği, erişilen kanıt, önerilen araç çağrısı ve politika değerlendirmesi — gördüğü birinci sınıf bir onay kuyruğu sağlamalıdır.

Onayları, inceleyici yorgunluğunu azaltacak şekilde tasarlayın. Niyeti özetleyin, nelerin değişeceğini vurgulayın ve benzer istekleri grupla ki inceleyici güvenle toplu onay verebilsin. Yorgunluk başlı başına bir başarısızlık modudur; her isteği otomatik onaylayan bir inceleyici, hiç inceleme yapmamakla aynıdır.

Hepsini bir araya getirmek

Savunulabilir bir kurum içi guardrails mimarisi; girdi normalizasyonu ve sınıflandırmayı, kimliğe bağlı kural-olarak-kodu, yapılandırılmış çıktı doğrulamayı, sürekli telemetriyi ve yüksek etkili eylemler için açık onayı birleştirir. Her katman kendi başına basittir ve bu basitlik bilinçlidir: karmaşık guardrails başarısızlıkları gizler; katmanlı basit guardrails onları gün yüzüne çıkarır. Tek bir sihirli filtre için değil, denetlenebilirlik için tasarlayın; ajan platformunuzun geri kalanı çok daha güvenli bir şekilde işletilebilir hâle gelecektir.

Öne çıkan görsel: Google DeepMind tarafından Unsplash'te.

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

Kurum İçi AI Ajanları için Koruma Mekanizması (Guardrails) Mimarisi: Tek Bir Filtrenin Ötesinde