Eğitim Verisi Yönetişimi Neden Düzenleyici Bir Öncelik

AB Yapay Zeka Yasası'nın 10. Maddesi, yüksek riskli yapay zeka sistemlerinde kullanılan eğitim, doğrulama ve test verileri için spesifik gereksinimler belirler. Bu gereksinimler genel veri koruma ilkelerinin ötesine geçer. Veri kalitesi, temsil gücü, hatalardan arınmışlık, bütünlük ve amaçlanan kullanıma uygunluk konularını ele alır. Veri yönetişimi ve yönetim uygulamalarının eğitim başlamadan önce oluşturulmasını ve yapay zeka sisteminin yaşam döngüsü boyunca sürdürülmesini gerektirir.

Birçok kuruluş için bu önemli bir boşluğu temsil eder. Yapay zeka ekipleri tarihsel olarak model mimarisi ve performans metriklerine odaklanmış, eğitim verisini yönetilen bir varlık yerine ham girdi olarak ele almıştır. Veri bilimciler, bu seçimlerin ve etkilerinin sınırlı belgelendirmesiyle en iyi model performansını üreten şeye göre veri seçer, temizler ve dönüştürür. Bu yaklaşım, eğitim verisinin kuruluşların diğer düzenlenmiş varlıklara uyguladığı aynı düzeyde yönetişim titizliğine tabi olmasını bekleyen AB Yapay Zeka Yasası kapsamında yetersizdir.

Kurum İçi ortamlarında zorluk ve fırsat büyütülür. Kuruluş, kaynak sistemlerden ön işleme, etiketleme, eğitim ve değerlendirmeye kadar tüm veri hattını kontrol eder. Bu kontrol, kuruluşun kapsamlı veri yönetişimi uygulayabileceği anlamına gelir, ancak bunu yapma sorumluluğunun tamamen kuruluşa ait olduğu anlamına da gelir.

Madde 10 Kapsamında Veri Kalitesi Gereksinimleri

AB Yapay Zeka Yasası, eğitim, doğrulama ve test veri setlerinin yüksek riskli yapay zeka sisteminin amaçlanan kullanımına uygun kalite kriterlerini karşılamasını gerektirir. Düzenleme spesifik kalite metrikleri öngörmese de, kuruluşların kendi kullanım durumları için yorumlaması ve uygulaması gereken bir beklentiler çerçevesi oluşturur.

İlgililik ve temsil gücü. Eğitim verisi, yapay zeka sisteminin kullanılması amaçlanan coğrafi, bağlamsal, davranışsal veya işlevsel ortamla ilgili olmalıdır. Bir sistem birden fazla AB üye devletinde kullanılacaksa, eğitim verisi karşılaşacağı nüfus ve bağlam çeşitliliğini yansıtmalıdır. Bu yalnızca istatistiksel bir endişe değildir. Temsil gücü yetersiz eğitim verisi, düzenlemenin ayrımcılık yapmama gereksinimlerini ihlal eden ayrımcı sonuçlara yol açabilir.

Hatalardan arınmışlık. Amaçlanan kullanımın gerektirdiği ölçüde, eğitim verisi hatalardan arınmış ve eksiksiz olmalıdır. Bu her veri setinin mükemmel olması gerektiği anlamına gelmez, ancak kuruluşun verisinin hata profilini anlaması, bu hataların sistemin performansını risk yaratan şekillerde etkileyip etkilemeyeceğini değerlendirmesi ve önemli kalite sorunlarını gidermek için makul adımlar atması gerektiği anlamına gelir.

Uygun istatistiksel özellikler. Düzenleme, eğitim verisinin yapay zeka sisteminin kullanılması amaçlanan kişiler veya gruplar açısından uygun istatistiksel özelliklere sahip olmasını bekler. Bu, yalnızca toplu istatistikleri değil, ilgili alt gruplar arasındaki veri dağılımını anlamayı ve herhangi bir grubun sistematik olarak eksik veya yanlış temsil edilip edilmediğini değerlendirmeyi gerektirir.

Bu gereksinimlerin uygulanması tek seferlik bir veri kalitesi kontrolünden daha fazlasını gerektirir. Veri toplama tasarımıyla başlayan ve sistemin operasyonel yaşamı boyunca devam eden, sistemin uyumluluk durumunu etkileyebilecek veri kayması ve dağılım değişiklikleri için izleme dahil, süregelen bir veri yönetişim süreci gerektirir.

Önyargı İncelemesi ve Azaltma Uygulamada

Madde 10 ayrıca sağlayıcıların, eğitim verisini kişilerin sağlığını ve güvenliğini etkilemesi, temel haklar üzerinde olumsuz etki yaratması veya ayrımcılığa yol açması muhtemel olan olası önyargılar açısından incelemesini gerektirir.

Yapılandırılmış önyargı değerlendirmesi. Önyargı tespitini geçici bir analiz olarak ele almak yerine, kuruluşlar yüksek riskli yapay zeka sistemlerinde kullanılan her eğitim veri setine uygulanan yapılandırılmış bir değerlendirme çerçevesi oluşturmalıdır. Bu çerçeve, temsil önyargısı, ölçüm önyargısı, etiket önyargısı, tarihsel önyargı ve toplama önyargısı dahil olmak üzere hangi tür önyargıların aranacağını tanımlamalıdır.

Vekil değişken analizi. Cinsiyet, etnik köken veya yaş gibi korunan özellikler eğitim verisinden çıkarılsa bile, diğer değişkenler aynı bilgiyi kodlayan vekiller olarak işlev görebilir. Posta kodları etnik köken ve sosyoekonomik duruma vekil olabilir. İş unvanları cinsiyete vekil olabilir. Satın alma kalıpları yaşa vekil olabilir. Kapsamlı bir önyargı incelemesi bu vekil ilişkilerini tanımlamalı ve değerlendirmelidir.

Alt grup performans analizi. Toplu model performansı, alt gruplar arasındaki önemli farklılıkları maskeleyebilir. Yüksek genel doğruluk elde eden bir model, belirli demografik gruplar, coğrafi bölgeler veya uç durumlar için önemli ölçüde daha düşük performans gösterebilir. Alt grup analizi, sistem konuşlandırma için onaylanmadan önce tüm ilgili alt gruplar genelinde karşılanması gereken önceden tanımlanmış performans eşikleriyle değerlendirme sürecinin standart bir parçası olmalıdır.

Kalıntı önyargının belgelenmesi. Tüm önyargılar ortadan kaldırılamaz. Bazı önyargılar, yapay zeka sisteminin doğru işlev görmesi için öğrenmesi gereken gerçek dünya kalıplarını yansıtır. Bu durumlarda kuruluş, kalıntı önyargıyı belgelemeli, potansiyel etkisini değerlendirmeli, insan gözetimi gibi telafi edici kontroller uygulamalı ve önyargı değerlendirmesini sistemin teknik dokümantasyonuna dahil etmelidir. Bilinen sınırlamalar hakkında şeffaflık bir uyumluluk gereksinimidir, bir zayıflık değil.

Köken Belgelendirme ve Veri Soy Zinciri

AB Yapay Zeka Yasası, yüksek riskli yapay zeka sistemlerinin sağlayıcılarının eğitim, doğrulama ve test için kullanılan verilerin açıklamasını içeren teknik dokümantasyon üretmesini gerektirir. Bu, verinin kaynağını, veri setlerinin kapsamını ve özelliklerini, verinin nasıl elde edildiğini ve seçildiğini, etiketleme prosedürlerini ve veri temizleme ile ön işleme metodolojilerini içerir.

Veri kaynağı kaydı. Her eğitim veri seti kaynağına kadar izlenebilir olmalıdır. Dahili veriler için bu, verileri hangi sistemlerin ürettiğini, hangi çıkarma ve dönüştürme süreçlerinin uygulandığını ve verilerin hangi zaman dilimini kapsadığını kaydetmek anlamına gelir. Harici veriler için sağlayıcı, lisans koşulları, edinim tarihi ve kullanım kısıtlamaları belgelenmelidir. Sentetik veriler için üretim yöntemi, tohum veri ve doğrulama yaklaşımı belgelenmelidir.

Dönüştürme ve ön işleme günlükleri. Verinin kaynağı ile eğitimde kullanımı arasında uygulanan her dönüştürme belgelenmelidir. Bu, temizleme kuralları, filtreleme kriterleri, özellik mühendisliği adımları, normalleştirme prosedürleri, artırma teknikleri ve örnekleme stratejilerini içerir.

Etiketleme yönetişimi. Denetimli öğrenme için etiketlerin kalitesi ve tutarlılığı sistemin davranışını doğrudan etkiler. Kuruluşlar, etiketlemeyi kimin yaptığını, hangi kılavuzları izlediklerini, hangi kalite kontrol önlemlerinin uygulandığını, ne düzeyde etiketleyiciler arası uyum sağlandığını ve anlaşmazlıkların nasıl çözüldüğünü belgelemelidir.

Kurum İçi ortamları, kuruluşun tüm veri hattını kontrol etmesi nedeniyle kapsamlı köken takibi uygulamak için çok uygundur. Veri katalogları, üst veri yönetim platformları ve hat orkestrasyon sistemleri gibi araçlar, veri eğitim hattından geçerken köken bilgilerini otomatik olarak yakalayacak şekilde yapılandırılabilir. VDF AI gibi bir platformla entegre edildiğinde, bu köken verileri belirli model sürümlerine bağlanabilir ve kaynak veriden eğitilmiş modele ve üretim konuşlandırmasına kadar uçtan uca bir zincir oluşturulabilir.

Üretimde Sürekli Veri İzleme

Veri yönetişimi model eğitildiğinde bitmez. AB Yapay Zeka Yasası, sağlayıcıların yapay zeka sisteminin doğasına ve risklerine orantılı bir pazar sonrası izleme sistemi oluşturmasını gerektirir.

Veri kayması tespiti. Gelen verileri, eğitim verisi profilinden önemli ölçüde sapan dağılımsal kaymalar açısından izleyin. Veri kayması, modelin kendisinde herhangi bir değişiklik olmadan daha az doğru, daha az adil veya daha az güvenilir çıktılar üretmesine neden olabilir. Otomatik kayma tespiti, dağılım değişiklikleri önceden tanımlanmış eşikleri aştığında uyarıları tetiklemeli ve eskalasyon prosedürleri etkiyi kimin değerlendireceğini ve düzeltici eylemi kimin yetkilendireceğini tanımlamalıdır.

Geri bildirim döngüsü yönetişimi. Birçok yapay zeka sistemi kendi çıktılarından geri bildirim alarak zamanla gelişir. Bu, mevcut önyargıları güçlendiren veya yenilerini tanıtan geri bildirim döngüleri riski yaratır. Sistemin çıktıları, daha sonra modeli yeniden eğitmek veya ince ayar yapmak için kullanılacak verileri etkiliyorsa, geri bildirim döngüsü tanımlanmalı, önyargı güçlendirme riski açısından değerlendirilmeli ve uygun kontrollerle yönetilmelidir.

Periyodik yeniden doğrulama. Tespit edilebilir kayma olmasa bile, eğitim verisi varsayımları dünya değiştikçe güncelliğini yitirebilir. Yüksek riskli yapay zeka sistemleri, eğitim verisi ilgililiğini, temsil gücünü ve önyargı profilini mevcut koşullara göre yeniden değerlendiren periyodik yeniden doğrulamadan geçmelidir.

Sysart Eğitim Verisi Yönetişimini Nasıl Destekler

AB Yapay Zeka Yasası gereksinimlerini karşılayan bir eğitim verisi yönetişim programı oluşturmak; veri mühendisliği, istatistiksel analiz, süreç tasarımı ve uyumluluk uzmanlığı gerektirir. Sysart Consulting, kuruluşların yapılandırılmış bir çalışmayla bu yetkinliği oluşturmasına yardımcı olur.

Kuruluşun yapay zeka sistemleri genelinde eğitim verisi yönetimine ilişkin mevcut uygulamalarını değerlendiren bir veri yönetişimi olgunluk değerlendirmesi ile başlarız. Bu değerlendirme, Madde 10 gereksinimlerine göre boşlukları tanımlar ve ilgili sistemlerin risk sınıflandırmasına göre iyileştirmeleri önceliklendirir.

Kurum İçi ortamında model oluşturan veya ince ayar yapan kuruluşlar için, köken takibi, kalite doğrulama, önyargı incelemesi ve belgelendirmeyi eğitim iş akışına gömülü hale getiren veri hattı yönetişim mimarileri tasarlarız.

Ayrıca süregelen veri izleme ve yeniden doğrulama süreçleri oluşturmaya yardımcı oluruz: kayma tespit panoları, periyodik önyargı yeniden değerlendirme prosedürleri, geri bildirim döngüsü kontrolleri ve eğitim verisi yönetişimini yapay zeka sisteminin operasyonel yaşamı boyunca güncel tutan yeniden doğrulama takvimleri. Spesifik gereksinimler kullanım durumuna, ilgili verilere ve sistemin risk sınıflandırmasına bağlı olacaktır ve kuruluşlar hukuk ve uyumluluk ekipleriyle birlikte çalışmalıdır.

Öne çıkan görsel Growtika tarafından Unsplash üzerinde paylaşılmıştır.

YZ Odaklı Danışmanlık

İnsan & Kültür

Akademi

Biz kimiz

Ne yapıyoruz

Kaynaklar

Kariyer

SysArt içinde arayın

AB Yapay Zeka Yasası Kapsamında Yüksek Riskli Yapay Zeka Sistemleri İçin Eğitim Verisi Yönetişimi