Yazı

Üretim Yapay Zekasında Agent Belleği, Unutma ve Maliyet Kontrolü

AI Agents · Cost Management · AI Architecture · Advanced

Agentic sistemler belleği sınırsız paylaşılan bağlam gibi ele almamalıdır. Üretim güvenilirliği bilinçli unutma, kapsamlı hatırlama ve ekonomik kontroller gerektirir.

Agent belleği ve altyapı maliyetini temsil eden bilgisayar anakartı yakın çekimi

Bellek Daha Büyük Bir Kütüphane Değildir

Kurumsal agent mimarisi tartışmaları belleği çoğu zaman paylaşılan bağlam, kurumsal hatırlama veya iş akışları boyunca faydalı deneyimi koruma yolu olarak çerçeveler. Bu kısmen doğrudur. Agent'ların kalıcı bilgiye erişmesi gerekir: politikalar, örnekler, onaylı prosedürler, müşteri bağlamı, iş akışı geçmişi ve doğrulanmış sonuçlar. Ancak üretim sistemleri bellek, agent'ın serbestçe gezebileceği sürekli büyüyen bir kütüphane gibi ele alındığında başarısız olur.

Daha iyi soru yalnızca "agent neyi hatırlamalı?" değildir. Asıl soru agent doğru davranmak için neyi unutmalı? Eski bağlam eksik bağlam kadar tehlikeli olabilir. Önceki bir istisna yanlış emsal haline gelebilir. Taslak politika onaylı politika yerine getirilebilir. Müşteriye özel geçici çözüm genel tavsiyeye sızabilir. Uzun bir konuşma agent'ı artık geçerli duruma uymayan bir plana doğru önyargılı hale getirebilir.

Paylaşılan Bağlam Paylaşılan Hata Yaratır

Multi-agent sistemlerde paylaşılan bellek verimli görünür. Bir agent bir şey öğrenir, diğer agent'lar bunu kullanabilir. Pratikte paylaşılan bağlam hataları mesh boyunca yayabilir. Planlama agent'ı kusurlu bir görev parçalama kaydederse araç agent'ı buna göre çalışabilir, doğrulama agent'ı yanlış yapıtı değerlendirebilir ve raporlama agent'ı hatalı iş akışının ikna edici açıklamasını üretebilir. Hata artık yerel değildir.

Bu nedenle bellek kapsamlandırılmalıdır. Oturum belleği tek bir etkileşimi sürdürmeye yardım eder. İş akışı belleği belirli bir sürecin durumunu kaydeder. Alan belleği sınırlandırılmış iş alanı için onaylı bilgiyi tutar. Denetim belleği ne olduğunu yeniden kurmak için saklanır. Eğitim belleği insan tarafından doğrulanmış örnekleri içerir. Bu kategoriler dikkatsizce karıştırılmamalıdır. Sistem açıkça işaretlemediği sürece agent denetim loglarını talimat, başarısız denemeleri de yeniden kullanılabilir iyi uygulama olarak kullanmamalıdır.

İyi bellek tasarımı köken, geçerlilik süresi, erişim kontrolü ve güven kullanır. Getirilen her bellek şu soruları yanıtlamalıdır: bu nereden geldi, kim onayladı, ne zaman geçersiz olur, hangi iş akışı kullanabilir ve daha yüksek otoriteli kaynakla çelişirse ne olur?

Unutma Bir Güvenlik Mekanizmasıdır

Unutma çoğu zaman yapay zeka sistemlerinin sınırlılığı gibi görülür. Üretimde bilinçli unutma güvenlik mekanizmasıdır. Agent'lar görev bittiğinde geçici akıl yürütmeyi unutmalıdır. Gelecekteki iş için gerekmeyen hassas ayrıntıları unutmalıdır. Bu hatalar etiketli negatif örnek olarak saklanmadıkça başarısız ara planları unutmalıdır. Kullanıcı tercihleri politika veya güncel gerçeklerle çeliştiğinde bu tercihleri unutmalıdır.

Bu bellek katmanlarıyla uygulanabilir. Kısa dönem scratchpad durumu yürütme sonunda kaybolmalıdır. İş akışı durumu yalnızca süreç aktif olduğu sürece kalmalıdır. Onaylı bilgi sürümleme ve sahipleri olan yönetilen depolarda yaşamalıdır. Denetim kanıtı düzenleyici ve iş gereksinimlerine göre saklanmalı; fakat agent bağlamı olarak serbestçe sunulmamalıdır. İnsan tarafından doğrulanmış golden record'lar ham etkileşim loglarından ayrı kürate edilmelidir.

Başka bir deyişle bellek mimarisi sohbet geçmişinden çok kayıt yönetimine benzemelidir. Hedef maksimum hatırlama değil, doğru hatırlamadır.

Bellek Maliyeti de Sürer

Bellek yalnızca güvenilirlik sorunu değildir. Ekonomik bir sorundur. Daha büyük context window'lar, tekrarlanan retrieval, multi-agent devir teslimleri ve doğrulama çağrıları token tüketimini artırır. Geniş bağlamı her agent'a aktaran bir mesh mimarisi, özellikle iş akışları retry yaptığında veya döngüye girdiğinde hızla pahalı hale gelir.

Üretim maliyet kontrolü bağlam bütçelemesi gerektirir. Her iş akışı hangi bağlamın zorunlu, hangisinin opsiyonel, hangisinin yasak olduğunu tanımlamalıdır. Retrieval semantik aramadan önce meta veriyle filtrelenmelidir. Özetler net otorite etiketleriyle oluşturulmalıdır. Agent'lar tüm konuşmayı veya kurumsal bilgi tabanını değil, rollerinin gerektirdiği minimum bağlamı almalıdır.

Yalnızca model çağrısı maliyetini değil, başarılı sonuç başına maliyeti ölçün. Başarısız çalıştırmaları, retry'ları, insan incelemesini, loglamayı, değerlendirmeyi ve altyapı yükünü dahil edin. Bellek stratejisi model halüsinasyonunu azaltıp inceleme süresini ikiye, token harcamasını üçe katlıyorsa mimari yine ekonomik olarak zayıf olabilir.

Daha Küçük Modeller ve Prosedürel Kontroller Kullanın

Bellek ve yönlendirme görevlerinin çoğu frontier LLM gerektirmez. Küçük bir dil modeli ticket alanını sınıflandırabilir. Deterministik kural doğru politika hiyerarşisini seçebilir. Meta veri filtresi süresi geçmiş belgeleri dışlayabilir. Şema doğrulayıcı hatalı araç çıktısını yakalayabilir. Prosedürel servis iş akışının onay sınırları içinde olup olmadığını hesaplayabilir.

Bu önemlidir; çünkü her karar büyük modele gönderildiğinde agent sistemleri kırılganlaşır. Sonuç daha yüksek maliyet, daha yavaş yanıt, daha fazla varyans ve daha zor hata ayıklamadır. Pahalı modeli gerçekten açık uçlu dil akıl yürütmesinin gerektiği yerlerde kullanın: belirsiz istekleri yorumlama, açıklama taslağı yazma, ödünleşimleri karşılaştırma veya karmaşık kanıtı özetleme. Operasyonel tesisat için küçük modeller ve deterministik bileşenler kullanın.

Pratik mimari hibrittir. Olasılıksal bileşenler dil ve belirsizlikle ilgilenir. Deterministik bileşenler bellek kapsamını, araç haklarını, politikayı ve maliyet sınırlarını uygular.

Bellek Yönetişimi Kontrol Listesi

Kurumsal agent mesh dağıtmadan önce bellek yönetişimi kontrol listesi tanımlayın. Hangi bellek depoları var? Her deponun sahibi kim? Hangi agent'lar okuyabilir veya yazabilir? Saklama süresi nedir? Bellekler onaylı, taslak, eski, özel, başarısız veya yalnızca denetim amaçlı olarak nasıl etiketlenir? Çelişkiler nasıl çözülür? Hangi bellekler asla LLM'e gönderilmez? Hangi bellekler gelecekte eğitim veya prompt iyileştirme için kullanılabilir?

Bu sorular operasyonel görünebilir; fakat sistemin güvenli ölçeklenip ölçeklenemeyeceğini belirler. Agent belleğinin hata modu yalnızca faydalı bir şeyi unutmak değildir. Daha tehlikeli hata, yanlış şeyi özgüvenle hatırlamaktır.

Bu nedenle bellek tasarımı platform ekibinin tek başına çözeceği teknik ayrıntı değil, risk, hukuk, güvenlik ve alan ekipleriyle birlikte yönetilecek kurumsal bir kontrol noktasıdır.

Agentic AI, agent'lar daha fazla hatırladığı için üretim seviyesine çıkmayacak. Sistemler seçici hatırladığında, bilinçli unuttuğunda ve akıl yürütme bütçesini yalnızca sonucu iyileştirdiği yerde harcadığında üretim seviyesine çıkacak.

Öne çıkan görsel: KC Shum, Unsplash.