Yazı

Şirket İçi Yapay Zeka İçin Dahili Veri Etiketleme Hatları Oluşturma

On-Premises AI · MLOps · Data Security · Best Practices · Intermediate

Araç seçiminden kalite güvence iş akışlarına kadar, güvenli ve ölçeklenebilir bir veri etiketleme hattını tamamen kendi altyapınızda nasıl tasarlayıp işleteceğinizi keşfedin.

Masaüstünde veri çalışma alanı gösteren dizüstü bilgisayar

Etiketleme Her Durumda Dışarıya Verilemez

Scale AI, Labelbox veya Amazon SageMaker Ground Truth gibi bulut tabanlı etiketleme platformları, verilerinizin ağınızdan çıkabileceğini varsayar. Sağlık, savunma, finans veya hassas fikri mülkiyetle ilgilenen herhangi bir sektördeki kuruluşlar için bu varsayım hemen çöker. Hasta kayıtları, tescilli mühendislik şemaları, gizli belgeler ve finansal işlem verileri, sözleşmesel korumalardan bağımsız olarak üçüncü taraf bir platforma yüklenemez.

Dahili bir etiketleme hattı oluşturmak yalnızca bir güvenlik önlemi değildir — genellikle düzenleyici bir gerekliliktir. GDPR veri yerleşim kuralları, HIPAA korumalı sağlık bilgisi kısıtlamaları ve savunma alanındaki ITAR gibi sektöre özgü düzenlemelerin tümü belirli veri türlerinin kontrollü ortamları asla terk etmemesini zorunlu kılar. İyi haber şu ki, açık kaynak araçlar, dahili bir hattın ticari bulut hizmetlerinin işlevselliğiyle eşleşebileceği noktaya kadar olgunlaştı.

Doğru Etiketleme Platformunu Seçmek

Birçok açık kaynak ve kendi barındırılabilir etiketleme aracı, şirket içi dağıtım için üretime hazırdır. Label Studio en çok yönlü olanıdır; metin, görüntü, ses, video ve zaman serisi verilerini özelleştirilebilir etiketleme arayüzleriyle destekler. Docker konteyneri olarak çalışır, kimlik doğrulama için Active Directory veya LDAP ile entegre olur ve tüm verileri yerel olarak veya nesne depolama alanınızda saklar.

Intel tarafından geliştirilen CVAT (Computer Vision Annotation Tool), sınırlayıcı kutular, çokgenler ve anlamsal segmentasyon için güçlü destekle görüntü ve video etiketleme için özel olarak üretilmiştir. Kullanım durumunuz ağırlıklı olarak görsel ise CVAT, genel amaçlı araçlardan daha akıcı bir deneyim sunar.

Adlandırılmış varlık tanıma, ilişki çıkarma, metin sınıflandırma gibi NLP ağırlıklı iş yükleri için doccano ve Prodigy (ticari ancak kendi barındırılabilir) odaklanmış arayüzler sunarak etiketçi yorgunluğunu azaltır.

Platformları dört kritere göre değerlendirin: veri türü kapsamı, dağıtım modeli (tamamen hava boşluklu çalışabilir mi?), entegrasyon API'leri ve çok kullanıcı desteği.

Hat Mimarisi: Ham Veriden Eğitime Hazır Etiketlere

İyi tasarlanmış bir etiketleme hattının beş aşaması vardır; her birinin net girdileri, çıktıları ve kalite kapıları bulunur.

Aşama 1: Veri Alımı. Ham veri kaynak sistemlerden hazırlık alanına akar. Gerekirse kimlik gizleme uygulayın — metinden kişisel bilgileri redakte edin, görüntülerde yüzleri bulanıklaştırın, belgelerden meta verileri temizleyin. Bu aşama otomatik ve denetlenebilir olmalıdır.

Aşama 2: Görev Oluşturma. Bir orkestratör veriyi etiketleme görevlerine böler ve etiketçi uzmanlığı, iş yükü dengesi ve çıkar çatışması kurallarına göre atar. Label Studio, REST API üzerinden programatik görev oluşturmayı destekler.

Aşama 3: Etiketleme. Etiketçiler platformun arayüzü üzerinden verileri etiketler. Uç durumların örnekleriyle birlikte net etiketleme yönergeleri sağlayın. Etiket kalitesinin en büyük belirleyicisi yönerge netliğidir.

Aşama 4: Kalite Güvencesi. Dahili hatların çoğunun başarısız olduğu yer burasıdır. En az iki mekanizma uygulayın: etiketçiler arası uyum (birden fazla etiketçinin aynı öğeleri etiketlemesi ve tutarlılığın ölçülmesi) ve altın standart kontrolleri (etiketçilerin bilmediği önceden etiketlenmiş öğeler eklemek).

Aşama 5: Dışa Aktarma ve Sürümleme. Onaylanmış etiketler, eğitim hattınızın gerektirdiği biçimde (JSONL, COCO, Pascal VOC vb.) dışa aktarılır ve tanımladıkları verilerle birlikte sürümlenir. DVC (Data Version Control) veya benzer bir araç kullanarak etiketli veri kümelerinizin tekrarlanabilir anlık görüntülerini oluşturun.

Model Destekli Etiketleme ile Hızlandırma

Tamamen insan etiketlemesi ölçeklenmez. Bir metin sınıflandırma görevi için deneyimli bir etiketçi saatte 200-400 örnek etiketleyebilir. Bu hızla 50.000 örneklik bir eğitim seti oluşturmak 125-250 kişi-saat sürer. Model destekli etiketleme bu yükü önemli ölçüde azaltır.

Desen basittir: küçük bir el ile etiketlenmiş çekirdek set (500-1.000 örnek) üzerinde başlangıç modeli eğitin, ardından kalan verileri önceden etiketlemek için kullanın. Etiketçiler sıfırdan etiketlemek yerine modelin önerilerini gözden geçirir ve düzeltir. Her düzeltme grubu modele geri beslendikçe önerileri iyileşir.

Bu aktif öğrenme yaklaşımı, model etiketleme platformuyla birlikte yerel olarak çalıştığı için şirket içinde özellikle iyi çalışır ve veri aktarım endişelerini ortadan kaldırır.

Bir tuzağa dikkat edin: otomasyon yanlılığı. Etiketçiler modelin güvenli bir önerisini gördüklerinde, yanlış olsa bile kabul etme eğilimi gösterir. Buna karşı, bazı görevleri ön etiketler olmadan rastgele sunun ve kabul oranlarını karşılaştırın.

Etiketçi Ekiplerini ve İş Akışlarını Yönetme

Çoğu şirket içi ortamda etiketçiler özel etiketleme profesyonelleri değildir — normal çalışmalarının bir parçası olarak etiketleme yapan alan uzmanlarıdır. Bir radyolog taramalar arasında tıbbi görüntüleri etiketler. Bir hukuk analisti belge incelemesi sırasında sözleşme maddelerini işaretler.

Yorgunluğa bağlı kalite düşüşlerini önlemek için etiketleme oturumlarını kısa tutun — en fazla 45-60 dakika. Etiketçileri görev türleri arasında döndürün. Etiketçi bazında metrikleri (hız, uyum oranı, altın standart doğruluğu) izleyin — gözetim için değil, birinin ek yönerge açıklamasına ihtiyaç duyduğunu veya yönergelerin kendisinin belirsiz olduğunu belirlemek için.

Etiketlemeyi ayrı bir süreç oluşturmak yerine mevcut iş akışlarına dahil edin. Her ek tıklama veya bağlam değişikliği katılım oranlarını düşürür.

Hat Sağlığını Ölçme

Dört metrik, etiketleme hattınızın iyi çalışıp çalışmadığını gösterir:

Etiketçiler arası uyum (IAA). İkili görevler için Cohen's kappa, çok etiketçili görevler için Fleiss' kappa. 0,6'nın altındaki bir IAA genellikle zayıf etiketçilerden ziyade belirsiz yönergelere işaret eder.

Etiketleme verimi. Etiketçi başına saat başına tamamlanan görevler, zaman içinde takip edilir. Düşen bir eğilim yorgunluk, belirsiz yönergeler veya beklenenden gerçekten daha zor görevlere işaret eder.

Altın standart doğruluğu. Etiketçilerin yerleştirilen altın öğeleri doğru etiketleme yüzdesi. Bu, bireysel etiketçi güvenilirliği için temel gerçeğinizdir.

Eğitime kadar geçen süre. Veri alımından sürümlenmiş, kalite güvenceli, model eğitimine hazır veri kümesine kadar geçen süre. Bu uçtan uca metrik, yalnızca etiketleme aşamasını değil, tüm hat boyunca darboğazları yakalar.

Bu metrikleri haftalık olarak gözden geçirin. Bir etiketleme hattı üretim sistemidir — model sunum altyapınıza uyguladığınız aynı operasyonel titizlikle muamele edin.

Görsel: Bernd Dittrich, Unsplash.