Kurumsal yapay zekada tekrarlanabilirlik krizi

Bir veri bilimci Salı günü bir model eğitir. Model iyi performans gösterir. Perşembe günü bir meslektaş aynı betik, aynı veri seti, aynı hiperparametrelerle yeniden eğitmeyi dener — ve önemli ölçüde farklı sonuçlar elde eder. Ekip, Çarşamba gecesi bir CUDA sürücü güncellemesinin dağıtıldığını, rastgele tohumun her bileşene yayılmadığını ve eğitim verilerinin yukarı akış ETL işi tarafından sessizce değiştirildiğini keşfetmeden önce iki gün hata ayıklama yapar.

Bu senaryo on-premises yapay zeka ekiplerinde sürekli yaşanır. Bulut yönetimli hizmetler, ortamı kilitleyerek bu karmaşıklığın bir kısmını üstlenir. On-premises ekipler bu determinizmi kendileri inşa etmelidir. Tekrarlanabilirlik akademik bir endişe değildir — model regresyonlarını ayıklama, denetim gereksinimlerini karşılama, düzenleyici beklentileri yerine getirme ve model geliştirme sürecinize güveni sürdürme için bir ön koşuldur.

Eğitim tekrarlanabilirliğinin beş katmanı

Tekrarlanabilirlik, beş farklı katmanda kontrol gerektirir. Bunlardan herhangi birini kaçırmak, sonuçları tekrarlanamaz kılmaya yetecek kadar varyans getirebilir:

1. Veri tekrarlanabilirliği: eğitim verisi, herhangi bir eğitim çalıştırmasının kullandığı tam veri seti anlık görüntüsüne referans verebilmesi için sürümlendirilmelidir. DVC (Data Version Control), LakeFS veya Delta Lake gibi araçlar, Git benzeri semantiklerle veri seti sürümleme sağlar. Kritik uygulama değişmezliktir — bir veri seti sürümü bir eğitim çalıştırmasında kullanıldığında, asla değiştirilmemelidir. Her eğitim çalıştırma kaydının yanında veri setinin kriptografik hash'ini saklayın.

2. Kod tekrarlanabilirliği: eğitim betiği, veri ön işleme kodu, yapılandırma dosyaları ve değerlendirme kodunun tamamı sürüm kontrollü olmalıdır. Bu çoğu ekip için temel bir gerekliliktir, ancak ayrıntılar önemlidir. Gereksinim dosyanızda veya kilit dosyanızda her bağımlılık sürümünü sabitleyin. Deterministik paket kurulumu (pip freeze, conda lock veya Poetry lock) kullanın, böylece aynı ortam belirtimi altı ay sonra da aynı kurulu paketleri üretsin.

3. Ortam tekrarlanabilirliği: işletim sistemi, CUDA araç takımı, cuDNN, GPU sürücü sürümü, Python sürümü ve yığındaki her kütüphane çalıştırmalar arasında aynı olmalıdır. Konteyner görüntüleri (Docker veya HPC ortamları için Apptainer/Singularity) pratik çözümdür. Eğitim görüntülerini her sürümü açıkça sabitleyen bir Dockerfile'dan oluşturun ve konteyner kaydınızda görüntüleri değişmez biçimde etiketleyin. Eğitim görüntüleri için asla :latest etiketleri kullanmayın.

4. Donanım tekrarlanabilirliği: farklı GPU mimarileri, farklı GPU sayıları ve hatta farklı GPU ara bağlantı topolojileri, paralel indirgemelerdeki kayan nokta belirsizliği nedeniyle farklı sonuçlar üretebilir. Mükemmel donanım tekrarlanabilirliği pratik olmasa da, donanım yapılandırmasını — GPU modeli, sayı, ara bağlantı ve NUMA topolojisi — her çalıştırma için meta veri olarak kaydetmeli ve iş yüklerinizden hangilerinin donanım değişikliklerine duyarlı olduğunu anlamalısınız.

5. Rastgelelik kontrolü: rastgele sayı üreteçleri veri karıştırma, ağırlık başlatma, dropout ve veri artırma işlemlerini yönlendirir. Her rastgelelik kaynağı tohumlanmalı ve tohum kaydedilmelidir. PyTorch'ta bu, Python'un random modülü, NumPy, torch ve torch.cuda için tohum ayarlamak anlamına gelir. Tam determinizm için torch.use_deterministic_algorithms(True) etkinleştirin ve CUBLAS_WORKSPACE_CONFIG=:4096:8 ayarlayın — ancak deterministik modun bazı işlemlerde performansı yüzde 10 ila 20 azaltabileceğini bilin.

Tekrarlanabilirlik temeli olarak konteynerleştirme

Konteyner görüntüleri, eğitim tekrarlanabilirliği için en etkili yatırımdır. İyi yapılandırılmış bir eğitim konteyneri, katman 2 ve 3'ü (kod ve ortam) tamamen yakalar ve katman 1 ve 5 (veri sürümleme ve tohum yönetimi) için doğal bir entegrasyon noktası sağlar.

Eğitim konteynerlerinizi, tekrarlanabilirliği derleme hızıyla dengelemek için katmanlı oluşturun:

Temel katman: CUDA araç takımı ve cuDNN'i belirli sürümlerde içeren sabitlenmiş bir NVIDIA CUDA temel görüntüsü (ör. nvidia/cuda:12.4.1-devel-ubuntu22.04). Bu katmanı yalnızca CUDA'yı kasıtlı olarak yükselttiğinizde yeniden oluşturun.
Framework katmanı: sabitlenmiş bağımlılıklarla kurulmuş, sabitlenmiş sürümde PyTorch, TensorFlow veya JAX. Bu katman ML framework'ünüzü yükselttiğinizde değişir.
Uygulama katmanı: eğitim kodunuz, yapılandırma dosyalarınız ve kalan bağımlılıklar. Bu katman her kod güncellemesinde değişir.

Her görüntüyü içerik adreslenebilir hash veya Git commit SHA'sı ve derleme zaman damgası kombinasyonuyla etiketleyin. Değişmez etiketler etkinleştirilmiş özel bir konteyner kaydında saklayın — Harbor gibi kayıtlar etiket değişmezliğini yerel olarak destekler. Kural basittir: bir eğitim çalıştırma kaydı bir görüntü etiketine referans verir ve bu etiket sonsuza dek aynı görüntüye çözümlenmelidir.

Eğitim çalıştırma manifesti

Her eğitim çalıştırması, tekrarlamak için gereken her şeyin makine tarafından okunabilir kaydı olan bir manifest üretmelidir. Manifest şunları içerir:

Konteyner görüntü referansı (kayıt, depo, özet)
Veri seti sürüm tanımlayıcıları ve içerik hash'leri
Eğitim kodu için Git commit SHA'sı
Tam hiperparametre seti (sadece değiştirdikleriniz değil — tamamı)
Her RNG kaynağı için rastgele tohumlar
Donanım yapılandırması (GPU modeli, sayı, sürücü sürümü)
Eğitim davranışını etkileyen ortam değişkenleri
Başlangıç zamanı, bitiş zamanı ve eğitim süresi
Çıktı model yapıt konumları ve hash'leri

Manifestleri model kaydınızda model yapıtlarının yanında saklayın. MLflow, Weights and Biases (kendi barındırmalı) veya ClearML (topluluk sürümü, on-premises) gibi araçlar manifest oluşturmayı otomatikleştirebilir. Özel bir eğitim başlatıcı kullanıyorsanız, manifest oluşturmak basit bir mühendislik görevidir — anahtar, bunu isteğe bağlı değil zorunlu kılmaktır.

Manifest çift görev görür. Mühendisler için bir hata ayıklama aracıdır: bir model beklenmedik davrandığında, manifest tam olarak neyin ürettiğini söyler. Denetçiler ve düzenleyiciler için, model geliştirme sürecinizin kontrollü ve izlenebilir olduğunun kanıtıdır.

Zor durumları ele alma: ortadan kaldıramadığınız belirsizlik

GPU hızlandırmalı eğitime özgü bazı belirsizlik kaynakları, kabul edilemez performans maliyetleri olmadan tamamen ortadan kaldırılamaz:

Çoklu GPU indirgemeleri: gradyanlar GPU'lar arasında toplandığında, kayan nokta toplamalarının sırası zamanlama farklılıkları nedeniyle çalıştırmalar arasında değişebilir. NCCL (NVIDIA Collective Communications Library) varsayılan olarak deterministik indirgemeler garanti etmez. Belirli indirgeme algoritmaları kullanarak determinizmi zorlayabilirsiniz, ancak bu genellikle çoklu GPU ölçekleme verimliliğini azaltır.

cuDNN otomatik ayarlama: cuDNN, donanım özelliklerine ve girdi boyutlarına göre konvolüsyon algoritmalarını çalışma zamanında seçer. Seçilen algoritma çalıştırmalar arasında değişebilir ve hafif farklı sonuçlar üretebilir. torch.backends.cudnn.benchmark = False ve torch.backends.cudnn.deterministic = True ayarlamak, mütevazı bir performans maliyetiyle tutarlı algoritma seçimini zorlar.

Veri yükleme sırası: çok çalışanlı veri yükleyiciler, OS zamanlamasına bağlı olarak batch'leri farklı sıralarda teslim edebilir. Tohumlanmış bir örnekleyici kullanın ve her veri yükleyici çalışanını deterministik biçimde tohumlamak için worker_init_fn ayarlayın.

Pragmatik yaklaşım, tam tekrarlanabilirlik (bit-aynı sonuçlar) ile istatistiksel tekrarlanabilirlik (beklenen varyans bandı içinde sonuçlar) arasında ayrım yapmaktır. Tam tekrarlanabilirlik, deterministik mod etkinleştirilmiş tek GPU eğitimi için elde edilebilir. Çoklu GPU dağıtık eğitim için istatistiksel tekrarlanabilirliği hedefleyin: anahtar metrikleriniz için kabul edilebilir varyans sınırları tanımlayın ve bu sınırların dışına düşen çalıştırmaları araştırma için işaretleyin.

Tekrarlanabilirliği ekip alışkanlığı haline getirme

Teknik altyapı tek başına tekrarlanabilir eğitim oluşturmaz. Uygulamalar ekibin iş akışına gömülmelidir:

Zorunlu manifestler: eksiksiz bir manifest olmadan hiçbir model yapıtı kaydedilmez. Bunu model kaydı kabul politikanızda uygulayın — manifest eksikse kayıt başarısız olur.

Tekrarlama testleri: periyodik olarak rastgele bir geçmiş eğitim çalıştırması seçin ve tekrarlamayı deneyin. Bu, eğitim altyapınız için felaket kurtarma tatbikatının karşılığıdır. Tekrarlama başarısız olursa nedenini araştırın ve açığı kapatın.

Ortam yükseltme disiplini: CUDA, cuDNN ve sürücü yükseltmeleri kasıtlı, test edilmiş olaylar olmalıdır — sessiz arka plan güncellemeleri değil. Yapılandırma yönetim aracınızı (Ansible, Puppet veya benzeri) kullanarak eğitim düğümlerinde sürücü sürümlerini sabitleyin ve yalnızca tekrarlama testini içeren kontrollü bir değişiklik süreci aracılığıyla yükseltin.

Varsayılan olarak değişmezlik: veri setleri, konteyner görüntüleri ve yapılandırma anlık görüntüleri yalnızca eklemeli olmalıdır. Sürümlendirilmiş bir yapıtı silmek veya üzerine yazmak, açık onay gerektirmeli ve denetim izi bırakmalıdır.

Tekrarlanabilirlik, gecikmeli getirisi olan bir yatırımdır. Bir düzenleyici denetçi size üretim modelinin nasıl üretildiğini göstermenizi ilk istediğinde ve bunu beş hafta yerine beş dakikada tamamen yanıtlayabildiğinizde, yatırım kendini defalarca geri öder.

Öne çıkan görsel: Thorium tarafından Unsplash'ta paylaşılmıştır.

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

On-Premises Yapay Zeka Hatları İçin Tekrarlanabilir Eğitim Ortamları