Yazı

Dahili Model Pazaryeri: Kurum İçinde Self-Servis Yapay Zeka Model Bahçesi Oluşturma

On-Premises AI · AI Architecture · MLOps · Intermediate

Ekiplerin onaylanmış yapay zeka modellerini keşfetmesine, değerlendirmesine ve dağıtmasına olanak tanıyan, platform ekibini darboğaz haline getirmeyen bir dahili model kataloğu nasıl tasarlanır ve işletilir.

Bir veri merkezinde yeşil sunucu ışıklarının yakın çekimi

Büyük Organizasyonlardaki Model Keşif Sorunu

Kuruluşlar kurum içi yapay zeka altyapılarını ölçeklendirdikçe verimliliği baltalayan bir kalıp ortaya çıkar: organizasyon genelindeki ekipler, meslektaşlarının zaten ne oluşturduğunu bilmeden bağımsız olarak örtüşen modelleri indirir, ince ayar yapar ve dağıtır. Hukuk ekibi, uyum ekibinin altı ay önce ince ayar yaptığı bir belge sınıflandırma modelini ince ayarlar. Müşteri hizmetleri bölümü, mühendislik ekibinin aynı donanım için en iyi seçeneği zaten kıyaslayıp dağıtmış olduğu sırada beş farklı özetleme modelini değerlendirir.

Bu tekrarlama, gereksiz ince ayar için GPU hesaplama, yinelenen model ağırlıkları için depolama ve zaten yapılmış olan değerlendirme çalışması için mühendislik zamanı israf eder. Daha da kötüsü, yönetim kör noktaları yaratır — bireysel ekipler tarafından dağıtılan modeller, organizasyonun gerektirdiği güvenlik incelemesi, önyargı testi veya uyum kontrollerinden geçmemiş olabilir.

Bir dahili model pazaryeri — model bahçesi veya model kataloğu olarak da adlandırılır — zengin meta veriler, değerlendirme sonuçları ve tek tıkla dağıtım yetenekleri içeren tek, aranabilir bir onaylanmış model kaydı sağlayarak bunu çözer. Yapay zeka modelleri için dahili bir uygulama mağazası gibi işlev görür: ekipler neyin mevcut olduğuna göz atar, modeli kullanan meslektaşlarının inceleme ve kıyaslamalarını okur ve modelin organizasyonel standartları karşıladığından emin olarak dağıtır.

Model Katalog Şemasının Tasarlanması

Katalog ancak içerdiği meta veriler kadar kullanışlıdır. Bir isimden ve indirme bağlantısından fazlasını listelemeyen bir model girişi, paylaşımlı bir dosya sunucusundan daha fazla değer sağlamaz. Katalog şeması, ekiplerin hangi modeli kullanacakları konusunda bilinçli kararlar vermek için ihtiyaç duydukları bilgileri yakalamalıdır.

Her model girişi bir model kartı içermelidir — modelin kullanım amaçlarını, bilinen sınırlamalarını, eğitim veri özetini ve performans özelliklerini açıklayan yapılandırılmış bir belge. Yapay zeka topluluğu bu bilgi için standart format olarak model kartlarında birleşmiştir ve Hugging Face'in model kartı araç seti bunları eğitim meta verilerinden yarı otomatik olarak oluşturabilir.

Model kartının ötesinde, donanım gereksinimleri (minimum GPU belleği, önerilen GPU türü, yükleme için CPU ve RAM gereksinimleri), organizasyonunuzun standart değerlendirme paketindeki kıyaslama sonuçları ve uyumluluk bilgileri (desteklenen çıkarım çerçeveleri, mevcut kuantizasyon formatları, donanımınızda test edilen maksimum bağlam uzunluğu) dahil edin.

Organizasyonel meta veriler ekleyin: hangi ekibin modelin sahibi olduğu, en son ne zaman güncellendiği, uyum inceleme durumu, onaylanmış kullanım durumları ve herhangi bir kullanım kısıtlaması. Dahili belge özetleme için onaylanan bir model, müşteriye yönelik sohbet uygulamaları için onaylanmamış olabilir — bu ayrım katalogda görünür olmalıdır.

Modelleri bir olgunluk düzeyi ile etiketleyin: deneysel (yalnızca değerlendirme için kullanılabilir), doğrulanmış (standart kıyaslamaları ve güvenlik incelemesini geçmiş) ve üretim (SLA'larla dağıtılmış ve desteklenen).

Kürasyon ve Yönetişim İş Akışları

Yönetilmeyen bir katalog hızla bir çöplük haline gelir. Modellerin kataloğa nasıl girdiği, nasıl sürdürüldüğü ve nasıl emekli edildiği konusunda net iş akışları oluşturun.

Gönderim iş akışı, bir model kartı, en az bir standart değerlendirme paketindeki kıyaslama sonuçları, tamamlanmış bir güvenlik taraması (serileştirme güvenlik açıkları, aşırı izinler ve gömülü kod kontrolü) ve gönderen ekibin liderinden onay gerektirmelidir. Bunun mümkün olduğunca çoğunu otomatikleştirin — güvenlik taraması ve kıyaslama yürütme, model gönderimi tarafından tetiklenen bir CI/CD hattında çalışabilir.

Periyodik inceleme, katalog girişlerinin doğru kalmasını sağlar. Altı aydır güncellenmeyen modeller, sahip ekibin ya yenilemesi ya da kullanımdan kaldırılmış olarak işaretlemesi için işaretlenmelidir. Temel modeli güvenlik uyarısı almış modeller otomatik olarak yeniden değerlendirme için işaretlenmelidir.

Kullanımdan kaldırma ve emeklilik zarif bir şekilde ele alınmalıdır. Bir model kullanımdan kaldırıldığında, şu anda kullanan ekipler bir geçiş zaman çizelgesi ve önerilen alternatiflerle otomatik bildirimler almalıdır. Katalog, kullanımdan kaldırılan modelleri (açıkça işaretlenmiş olarak) listelemeye devam etmeli, ancak kullanımdan kaldırılmış modellerin yeni dağıtımları engellenmelidir.

Self-Servis Dağıtım ve Değerlendirme

Pazaryerinin değer önerisi self-servistir — ekipler, platform ekibine bilet açmadan modelleri değerlendirebilmeli ve dağıtabilmelidir. Bu, yönetişim korkuluklarını sürdürürken dağıtım yolunu sorunsuz hale getiren otomasyona yatırım yapmayı gerektirir.

Herhangi bir katalog modeli için geçici bir çıkarım uç noktası başlatan tek tıkla değerlendirme ortamı sağlayın. Ekipler test istekleri gönderebilir, kendi girdi kalıplarında gecikme süresini ölçebilir ve birden fazla modeli yan yana karşılaştırabilir. Bu ortamın sabit bir ömrü (örneğin 4 saat) ve sınırlı GPU tahsisi olmalıdır.

Üretim dağıtımı için, organizasyonunuzun dağıtım standartlarını (kaynak sınırları, sağlık kontrolleri, izleme entegrasyonu, otomatik ölçeklendirme politikaları) kodlayan önceden yapılandırılmış altyapı-kod modülleri olan dağıtım şablonları uygulayın. Model dağıtan bir ekip, kullanım durumuna uygun şablonu seçer (düşük gecikmeli tekli istek, toplu işleme, akış) ve şablon altyapı ayrıntılarını halleder.

Mevcut CI/CD platformunuzla entegre edin, böylece model dağıtımı uygulama dağıtımıyla aynı iş akışını takip etsin: sürüm kontrollü, eşler arası incelenmiş ve otomatik test edilmiş.

Kullanım Analitiği ve Ağ Etkisi

En başarılı dahili pazaryerler bir ağ etkisi yaratır — kataloğu ne kadar çok ekip kullanırsa, her ekip için o kadar değerli hale gelir. Kullanım analitiği bu etkiyi yönlendiren motordur.

Her model için benimseme metriklerini takip edin ve görüntüleyin: kaç ekibin dağıttığı, günde kaç çıkarım isteğine hizmet ettiği ve zaman içindeki eğilimi. Yüksek benimseme ve istikrarlı kullanıma sahip modeller, ek platform yatırımı için güçlü adaylardır. Düşen kullanıma sahip modeller, daha iyi bir alternatifin ortaya çıktığını veya kullanım durumunun değiştiğini gösterebilir.

Ekiplerin bir modelle deneyimlerini paylaştıkları kullanıcı incelemeleri ve derecelendirmeleri etkinleştirin — neyin iyi çalıştığı, hangi sınırlamalarla karşılaştıkları ve en iyi kullanım için ipuçları (istem mühendisliği stratejileri, ön işleme adımları, yapılandırma ayarı). Bu kurumsal bilgi, resmi kıyaslamalardan genellikle daha değerlidir çünkü organizasyonunuzun verileri ve altyapısı üzerindeki gerçek dünya kullanımını yansıtır.

Yeni eklenen modelleri, popüler modelleri ve önemli ölçüde güncellenen modelleri vurgulayan aylık bir katalog özeti yayınlayın. Bunu organizasyonunuzun mevcut iletişim kanalları (Slack, e-posta, dahili blog) aracılığıyla dağıtın.

Pazaryeri Platformunun Teknik Mimarisi

Pazaryerinin kendisi, kasıtlı bir mimariye ihtiyaç duyan bir yazılım ürünüdür. En azından dört bileşenden oluşur: bir meta veri deposu, bir model kayıt defteri, bir dağıtım motoru ve bir web arayüzü.

Meta veri deposu, model kartlarını, kıyaslama sonuçlarını, incelemeleri ve organizasyonel meta verileri tutar. REST API'li bir PostgreSQL veritabanı bu amaca iyi hizmet eder. Şema versiyonlama önemlidir — ekiplerin gerçekte hangi meta verilere ihtiyaç duyduğunu öğrendikçe şemayı geliştireceksiniz.

Model kayıt defteri, gerçek model eserlerini depolar — ağırlık dosyaları, tokenizer'lar, yapılandırma dosyaları ve imzalar. Mevcut model kayıt defteriniz (MLflow Model Registry, OCI formatlı modeller için Harbor veya versiyonlama destekli adanmış bir nesne deposu) bu rolü üstlenebilir.

Dağıtım motoru, bir dağıtım isteğini çalışan altyapıya dönüştürür. KServe veya Seldon Core gibi Kubernetes operatörleri, GPU zamanlama, sağlık kontrolü ve trafik yönetimi karmaşıklığını soyutlayan modele özgü dağıtım ilkelleri sağlar.

Web arayüzü, ekiplerin modellere göz attığı, aradığı, değerlendirdiği ve dağıttığı yerdir. Arama kalitesine yatırım yapın — ekipler ilgili modelleri sadece model adıyla değil, yetenek açıklamasıyla ("10.000 kelimenin altındaki hukuk belgelerini özetle") bulabilmelidir.

Öne çıkan görsel: Tyler tarafından Unsplash'ta yayınlanmıştır.