KDM Topluluk Yaklaşımının Gerekçesi

Küçük dil modelleri — genellikle 1 milyar ile 13 milyar parametre arasında — önemli ölçüde olgunlaştı. Phi-3, Mistral 7B ve Llama 3 8B gibi modeller birçok görevde etkileyici sonuçlar veriyor. Ancak karmaşık kurumsal iş yüklerinde — çok adımlı akıl yürütme, alana özgü analiz veya nüanslı sınıflandırma — tekil KDM'ler hala büyük muadillerinin gerisinde kalıyor. Standart yanıt daha büyük bir modele yönelmektir, ancak büyük modeller kurum içi bütçenize veya altyapı kısıtlamalarınıza sığmayabilecek pahalı GPU donanımı gerektirir.

Başka bir yol daha var: tek başına hiçbir küçük modelin ulaşamayacağı çıktılar üreten topluluk mimarileri. Bu yaklaşım, makine öğreniminde köklü bir ilkeden faydalanır: farklı hatalar yapan çeşitli modeller, genel hata oranlarını azaltmak için birleştirilebilir. Kurum içi dil modellerine uygulandığında, topluluklar dikey ölçeklemeyi (daha az sayıda büyük GPU) yatay ölçeklemeyle (daha fazla küçük GPU) takas etmenize olanak tanır — genellikle daha düşük toplam maliyetle.

Dil Modelleri için Topluluk Kalıpları

Tüm topluluk stratejileri eşit değildir. Doğru kalıp, görev türünüze, gecikme gereksinimlerinize ve altyapı kapasitenize bağlıdır.

Çoğunluk oylaması en basit yaklaşımdır. Aynı istemi üç veya beş farklı KDM'den geçirin ve en yaygın yanıtı alın. Bu, çıktının ayrık bir etiket olduğu sınıflandırma görevleri için iyi çalışır. Örneğin, destek biletlerini kategorilere ayırıyorsanız, üç modelin bağımsız olarak kategoriye oy vermesi, tekil herhangi bir modelden daha güvenilir sonuçlar üretir.

Uzman Karışımı (MoE) yönlendirmesi, her girdiyi en yetenekli uzman modele yönlendirmek için hafif bir yönlendirici model kullanır. Her girdiyi her modelden geçirmek yerine, yönlendirici girdiyi analiz eder ve onu iyi ele alma olasılığı en yüksek olan bir veya iki modeli seçer. Bu, gecikmeyi düşük tutarken model çeşitliliğinden faydalanır.

Sıralı iyileştirme, modelleri bir hatta zincirlerer. Hızlı, küçük bir model ilk yanıtı üretir ve ikinci bir model bunu gözden geçirip iyileştirir. Bu, ilk modelin yapı ve içerik sağladığı, ikinci modelin ise tutarlılık, doğruluk veya üslubu geliştirdiği üretim görevleri için özellikle etkilidir.

Ağırlıklı birleştirme, modellerin olasılık dağılımları veya güven puanları ürettiğinde uygulanır. Her modelin çıktısı, verilen girdi türü için tahmin edilen güvenilirliğine göre ağırlıklandırılır ve ağırlıklı çıktılar nihai bir tahmine birleştirilir. Bu, sıcaklık ölçekleme veya Platt kalibrasyonu ile elde edilebilecek kalibre edilmiş güven puanları gerektirir.

Çeşitli Bir Model Havuzu Oluşturmak

Topluluk kalitesi çeşitliliğe bağlıdır. Aynı verilerle eğitilmiş aynı model mimarisinin beş kopyası aynı hataları yapacak ve hiçbir topluluk faydası sağlamayacaktır. Anlamlı çeşitlilik üç kaynaktan gelir:

Mimari çeşitliliği: Farklı temeller üzerine inşa edilmiş modelleri birleştirin. Phi-3, Mistral 7B ve Llama 3 8B modelleri farklı eğitim verilerine, mimari tercihlerine ve öğrenilmiş temsillere sahiptir. Hata kalıpları doğal olarak farklıdır — tam da istediğiniz budur.

Eğitim verisi çeşitliliği: Aynı temel mimariyi alan verilerinizin farklı alt kümeleri üzerinde ince ayar yapın. Bir model teknik dokümantasyon üzerinde, diğeri müşteri iletişimleri üzerinde, üçüncüsü ise yapılandırılmış raporlar üzerinde ince ayar yapılabilir. Birleştirildiğinde, alanınızın tüm genişliğini tek bir ince ayarlı modelden daha etkili bir şekilde kaplarlar.

İstem çeşitliliği: Aynı görevi modellere farklı istem formülasyonları kullanarak sunun. Bir istem adım adım akıl yürütme isteyebilir, diğeri doğrudan yanıt, üçüncüsü ise güven nitelendirmeli bir yanıt isteyebilir. Farklı istemler aynı modelde farklı akıl yürütme yollarını etkinleştirir ve birleştirildiğinde topluluk kalitesini artıran çeşitli çıktılar üretir.

Kurum İçi Topluluklar için Altyapı Mimarisi

Kurum içinde birden fazla KDM çalıştırmak dikkatli altyapı planlaması gerektirir. İyi haber şu ki, KDM'ler büyük modellere kıyasla bireysel olarak çok daha az talepkardır — 7 milyar parametreli bir model, 16GB VRAM'li tek bir tüketici sınıfı GPU üzerinde çıkarım yapabilir veya toplu iş yükleri için kabul edilebilir gecikmeyle CPU üzerinde bile çalışabilir.

Her modeli, paylaşılan bir API ağ geçidinin arkasında bağımsız bir çıkarım hizmeti olarak dağıtın. Her modeli barındırmak için vLLM, llama.cpp veya Triton Inference Server gibi bir sunum çerçevesi kullanın. API ağ geçidi yönlendirme, yük dengeleme ve topluluk birleştirme mantığını yönetir. Bu ayrım, topluluk yapısını bozmadan tekil modelleri güncellemenize, ölçeklendirmenize veya değiştirmenize olanak tanır.

Paralel oylama toplulukları için gecikme, gruptaki en yavaş model tarafından belirlenir. Yanıt sürelerini tutarlı tutmak için benzer çıkarım hızlarına sahip modeller kullanın ve zaman aşımı eşikleri belirleyin. Bir model sürekli geri kalıyorsa, değiştirin veya ağırlığını düşürün.

Bellek planlaması basittir: her model için VRAM gereksinimini tahmin edin (float16 için parametre sayısının GB cinsinden yaklaşık 2 katı) ve GPU'ları buna göre ayırın. Float16'daki üç adet 7B model toplam yaklaşık 42GB VRAM gerektirir. 4-bit nicemleme ile aynı üç model toplam 15GB'ın altına sığar ve tek bir orta sınıf GPU üzerinde rahatça çalışır.

Kalibrasyon ve Performans Optimizasyonu

Bir topluluk, yalnızca birleştirme stratejisi kadar iyidir. Basit çoğunluk oylaması basit görevler için işe yarar, ancak karmaşık iş yükleri öğrenilmiş birleştirmeden faydalanır — topluluk ağırlıklarını gözlemlenen performansa dayalı olarak eğittiğiniz bir süreç.

Sisteminizin üretimde karşılaşacağı girdilerin tüm yelpazesini temsil eden bir doğrulama veri seti oluşturarak başlayın. Her modeli bu veri setine karşı bağımsız olarak çalıştırın ve bireysel tahminlerini ile güven puanlarını kaydedin. Sonra birleştirme fonksiyonunu — ister ağırlıklı oy, ister meta sınıflandırıcı, ister yönlendirici olsun — bu veriler üzerinde eğitin. Amaç, hangi modellerin hangi girdi türleri için güvenilir olduğunu öğrenmektir.

Topluluk performansını sürekli izleyin. Yalnızca genel doğruluğu değil, model başına katkıyı da takip edin. Bir modelin bireysel doğruluğu veri kayması nedeniyle düşerse, topluluk ağırlığı otomatik olarak azalmalıdır.

Bir ince optimizasyon: yüksek güvenli tahminler için erken çıkış uygulayın. Üç modellik bir toplulukta ilk iki model yüksek güvenle aynı fikirde ise, üçüncü modeli tamamen atlayın. Bu, belirsiz girdilerde tam topluluğun en değerli olduğu durumlarda doğruluğu korurken ortalama çıkarım maliyetini azaltır.

Topluluklar Ne Zaman Üstün, Ne Zaman Yetersiz Kalır?

KDM toplulukları, tekil modellerin bağımsız, ilişkisiz hatalar yaptığı görevlerde en güçlü kazanımları sağlar. Sınıflandırma, varlık çıkarma ve olgusal soru yanıtlama mükemmel adaylardır. Bu görevlerde model çeşitliliği doğrudan hata azaltmaya dönüşür çünkü doğru yanıt iyi tanımlanmıştır ve hatalar modeller arasında rastgele dağılma eğilimindedir.

Topluluklar, tek bir doğru yanıtın olmadığı açık uçlu üretim için daha az fayda sağlar. Üç farklı yaratıcı yazma çıktısını birleştirmek daha iyi yaratıcı yazı üretmez — tutarsız bir ortalama üretir. Üretim görevleri için sıralı iyileştirme (bir modelin diğerinin çıktısını düzenlemesi) paralel birleştirmeden daha iyi çalışır.

Tüm mevcut KDM'ler aynı temel sınırlamayı paylaştığında da zorlanırlar. Havuzunuzdaki hiçbir 7B model uzun bağlamlar üzerinde çok adımlı akıl yürütmeyi güvenilir bir şekilde gerçekleştiremiyorsa, beşini birleştirmek sorunu çözmez. Bu durumlarda yanıt ya o belirli görev için daha büyük bir model kullanmak ya da karmaşık görevi tekil KDM'lerin üstesinden gelebileceği daha basit alt görevlere ayrıştırmaktır.

Pragmatik yaklaşım, tek bir KDM ile başlamak, nerede başarısız olduğunu ölçmek ve yalnızca başarısızlık biçiminin topluluk düzeltmesine uygun olduğu yerlerde topluluk karmaşıklığı eklemektir. Her görev bir topluluk gerektirmez ve basit tekil model dağıtımının yeterli olduğunu fark etmek, sizi operasyonel karmaşıklıktan kurtarır.

Kapak görseli: Logan Voss, Unsplash.

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

KDM Topluluk Stratejileri: Küçük Modelleri Birleştirerek Kurumsal Düzeyde Doğruluk