Yazı

Kurum İçi RAG Değerlendirmesi: Erişim Kalitesini Ölçekte Ölçme

On-Premises AI · Best Practices · MLOps · Advanced

Kurum içinde çalışan RAG sistemleri için erişim metrikleri, üretim kalitesi ve sürekli izlemeyi kapsayan sistematik değerlendirme hatları nasıl oluşturulur.

Veri analizini temsil eden ahşap yüzeyde harf karolariyla yazılmış istatistik kelimesi

Kurum İçi RAG'da Değerlendirme Açığı

Çoğu kurum içi RAG dağıtımı, mimari konusuna dikkatli bir şekilde başlar: vektör veritabanları ayarlanır, gömme modelleri seçilir ve parçalama stratejileri tartışılır. Ancak sistem çalışmaya başladığında, değerlendirme genellikle anekdot niteliğindeki kullanıcı geri bildirimleriyle sınırlı kalır. Birisi bir sorgu dener, yanıt makul görünür ve ekip devam eder.

Bu yaklaşım ölçekte çöker. Yüzlerce kullanıcı günde binlerce belgede sorgu yaptığında, erişim başarısızlıklarını tespit etmek, üretim kalitesini ölçmek ve hattın nerede iyileştirilmesi gerektiğini belirlemek için sistematik ölçüme ihtiyacınız vardır. Yapılandırılmış değerlendirme olmadan kör uçuş yaparsınız ve sorunları ancak kullanıcılar araştırma başlatacak kadar yüksek sesle şikayet ettiğinde keşfedersiniz.

Erişim Değerlendirmesini Üretim Değerlendirmesinden Ayırma

Bir RAG hattının farklı şekillerde başarısız olan iki ayrı aşaması vardır ve bunları birlikte değerlendirmek sorunların temel nedenini gizler.

Erişim değerlendirmesi, sistemin doğru belgeleri bulup bulmadığını ölçer. Üretim modeli, yalnızca erişilen bağlam yanıtı içeriyorsa doğru yanıt verebilir. Temel erişim metrikleri şunlardır:

Recall@K: Külliyatınızdaki tüm ilgili belgelerden, ilk K erişilen parçada ne kadarı görünür? Bu, erişiminizin önemli bilgileri kaçırıp kaçırmadığını söyler. Düşük geri çağırma, bilgi belge deponuzda mevcut olsa bile kullanıcıların eksik veya yanlış yanıtlar alması anlamına gelir.

Precision@K: Erişilen K parçadan ne kadarı gerçekten ilgili? Düşük hassasiyet, bağlam penceresi belirteçlerini alakasız içeriğe harcar ve bu üretim modelini yanıltabilir ve gecikmeyi artırabilir.

Ortalama Karşılıklı Sıralama (MRR): İlk ilgili belge sıralamada ne kadar yüksekte? İlgili içerik 10 üzerinden sürekli 8. pozisyonda görünüyorsa, erişiminiz çalışıyor ancak sıralamanız çalışmıyor.

Üretim değerlendirmesi, modelin erişilen bağlamdan iyi bir yanıt üretip üretmediğini ölçer. Bu; sadakat (yanıt erişilen gerçeklere bağlı kalıyor mu?), ilgililik (yanıt soruyu ele alıyor mu?) ve bütünlük (yanıt, erişilen bağlamın desteklediği sorunun tüm yönlerini kapsıyor mu?) içerir.

Referans Veri Kümesi Oluşturma

Değerlendirme, referans verisi gerektirir: erişilmesi gereken belgeler ve bu belgelerin desteklediği yanıtlarla eşleştirilmiş bilinen sorular. Bu veri kümesini oluşturmak, RAG değerlendirmesinin en emek yoğun kısmıdır, ancak kendini birçok kez geri öder.

En yaygın sorgu kalıplarınızı kapsayan en az 200 soru-yanıt-belge üçlüsüyle başlayın. Bunları oluşturmak için mühendislik ekibini değil, sistemi gerçekten kullanan alan uzmanlarını görevlendirin. Mühendisler, sistemin iyi ele aldığını bildikleri sorguları yazma eğilimindedir ve yapay olarak iyimser bir değerlendirme kümesi oluşturur.

Referans verinizi zorluk seviyelerine göre yapılandırın: basit olgusal aramalar (yanıt tek bir paragrafta), çok belgeli muhakeme (yanıt birden fazla parçadan bilgi sentezlemeyi gerektirir), zamansal sorgular (yanıt bir belgenin en son sürümüne bağlıdır) ve negatif durumlar (külliyatın yanıtlayamayacağı sorular, sistemin bilmediğini söylemesi gereken yerler).

Referans veri kümenizi aylık olarak güncelleyin. Belge külliyatınız geliştikçe, eski değerlendirme sorguları artık temsili olmayabilir. Alan uzmanlarının veri kümesini gözden geçirmesi ve yenilemesi için her ay sabit bir saat ayırın. Hangi sorguların eskidiğini takip edin ve değiştirilmelerini önceliklendirin.

Otomatik Değerlendirme Hatları

Manuel değerlendirme ölçeklenmez. RAG yapılandırmanızdaki her değişiklikte çalışan otomatik bir hat oluşturun: gömme modeli güncellemeleri, parçalama parametresi değişiklikleri, erişim algoritması ayarlamaları veya istem şablonu değişiklikleri.

Hat basit bir yapı izler: referans veri kümesini yükleyin, her sorguyu RAG sistemi üzerinden çalıştırın, erişilen parçaları ve üretilen yanıtı yakalayın, referans veriyle karşılaştırarak metrikleri hesaplayın ve geçme/kalma eşiklerini içeren bir rapor oluşturun.

Erişim metrikleri için karşılaştırma belirleyicidir: beklenen belgelerin erişilen kümede görünüp görünmediğini kontrol edersiniz. Üretim kalitesi için iki seçeneğiniz vardır. Daha ucuz seçenek kural tabanlı kontroldür: yanıtın beklenen anahtar ifadeleri içerip içermediğini, uzunluk sınırlarını aşmadığını ve gerekli alıntıları içerip içermediğini doğrulayın. Daha kapsamlı seçenek, yapılandırılmış bir değerlendirme cetveline göre sadakat, ilgililik ve bütünlüğü puanlamak için ayrı bir LLM'yi yargıç olarak kullanır.

LLM-yargıç kullanıyorsanız, yargıç modelini RAG sisteminizle birlikte kurum içinde çalıştırın. Bu, değerlendirme verilerini güvenlik çevreniz içinde tutar ve belgeleriniz hassas içerik barındırdığında önemlidir. RAGAS ve DeepEval gibi çerçeveler, özellikle RAG değerlendirmesi için tasarlanmış yapılandırılmış değerlendirme istemleri ve metrikleri sağlar.

Regresyon eşikleri belirleyin: Recall@10 0,85'in altına düşerse veya sadakat puanı 0,90'ın altına düşerse, hat başarısız olur ve değişiklik dağıtılmaz. Bu eşikler, keyfi sayılar değil, üretim temel çizginize göre kalibre edilmelidir.

Metrikler Ötesinde Üretim İzleme

Otomatik değerlendirme, dağıtımdan önce regresyonları yakalar. Üretim izleme, değerlendirme veri kümelerinin kaçırdığı sorunları yakalar: yeni sorgu kalıpları, erişimi bozan yeni eklenen belgeler ve kullanıcı davranışındaki kademeli kayma.

Her RAG etkileşimini şunlarla kaydedin: orijinal sorgu, erişilen parça kimlikleri ve benzerlik puanları, üretilen yanıt, her aşamadaki gecikme ve kullanıcı geri bildirim sinyalleri (beğen/beğenme, takip soruları, sorgu yeniden formülasyonları). Bu günlükleri toplu analizi destekleyen yapılandırılmış bir formatta saklayın.

Üç sinyal etrafında panolar oluşturun. Erişim güven dağılımı: İlk-K erişilen parçaların benzerlik puanlarını zaman içinde çizin. Ortalama benzerlik puanlarındaki düşüş trendi, kullanıcı sorgularının indekslenmiş içeriğinizden uzaklaştığını veya gömme modelinizin yeni belge türlerinde bozulduğunu işaret eder. Yanıt uzunluğu dağılımı: Ortalama yanıt uzunluğundaki ani değişiklikler genellikle erişim başarısızlıklarını gösterir. Sistem ilgili bağlam bulamadığında, ya çok kısa temkinli yanıtlar ya da çok uzun halüsinatif yanıtlar üretir. Kullanıcı etkileşim kalıpları: Yüksek sorgu yeniden formülasyon oranları (aynı kullanıcının sorusunu hemen yeniden ifade etmesi) ilk yanıtın yetersiz olduğunu gösterir.

En düşük güvenilirlikli etkileşimlerin haftalık incelemelerini planlayın. Erişim puanlarının en düşük olduğu 50 sorguyu örnekleyin, kaliteyi manuel olarak değerlendirin ve başarısızlık modunu sınıflandırın: belge indekslenmemiş miydi, parça sınırı yanlış mıydı, gömme modeli bu içerik türünde başarısız mı oluyordu, yoksa sorgu temelden belirsiz miydi?

Döngüyü Kapatma: Değerlendirmeden İyileştirmeye

Değerlendirme yalnızca hedefli iyileştirmeleri yönlendiriyorsa faydalıdır. Her başarısızlık modunu belirli bir müdahaleyle eşleyin:

Belirli belge türlerinde düşük geri çağırma, parçalama stratejinizin veya gömme modelinizin bu içeriği iyi işlemediğini gösterir. Farklı parça boyutları, örtüşme pencereleri veya bu içerik türü için özelleştirilmiş bir gömme modeliyle deney yapın.

Yüksek erişim kalitesi ancak düşük üretim sadakati, bir istem mühendisliği sorununa işaret eder. Model iyi bağlam alıyor ancak doğru kullanmıyor. Modele erişilen pasajları alıntılaması ve bağlamda bulunmayan bilgi eklememesi için sistem isteminizi daha güçlü bir şekilde yönlendirmek üzere revize edin.

Çok belgeli sorgularda tutarlı düşük performans, mimari değişiklikler gerektirebilir: yeniden sıralama adımı uygulamak, sorgu ayrıştırma eklemek (karmaşık sorguları alt sorgulara bölmek) veya daha fazla erişilen parçayı barındırmak için bağlam penceresini artırmak.

Her değişiklikten sonra referans veri değerlendirmenizi çalıştırarak ve metrikleri çizerek zaman içindeki iyileşmeyi takip edin. Bu, neyin işe yarayıp neyin yaramadığının ampirik bir kaydını oluşturur ve sezgiyi veriyle değiştirir. Yığının her bileşenini kontrol ettiğiniz bir kurum içi ortamda, bu düzeyde sistematik optimizasyon tamamen erişilebilir durumdadır.

Öne çıkan görsel: Markus Winkler tarafından Unsplash'ta paylaşılmıştır.