Türkçe Dil Modelleri Eğitimi ve On Premise Dağıtımı Kılavuzu

Bu kılavuz, Türkiye’de faaliyet gösteren kurum ve kuruluşların, kendi büyük dil modellerini (LLM) kurarak yapay zekâdan azami faydayı sağlamaları için hazırlanmıştır. Özellikle Türkçe diline özgü ihtiyaçlar, yasal düzenlemeler (örneğin KVKK), veri kalitesi, model seçimi, eğitim altyapısı ve dağıtım stratejileri gibi konulara odaklanır.

Neden Bu Kılavuz Var?

Bu Kaynak Kılavuzun Amacı

Kurumsal yapay zekâ projeleri çoğu zaman, model eğitiminin ötesinde zorluklarla karşılaşır:

Türkçe yapay zeka için veri kaynaklarının yetersizliği
Yasal uyum (KVKK, ISO/IEC 42001)
GPU altyapısı, lisanslama ve maliyet yönetimi
Doğru değerlendirme metriklerinin bilinmemesi

Bu kılavuz; teknik ekiplerin hızlıca uygulayabileceği kod parçaları ve kontrol listeleriyle, karar vericilerin ise stratejik yol haritasını oluşturabileceği şeffaf açıklamalarla hazırlanmıştır. Her teknik kavramın hemen altında “📊 Ne Demek?” açıklamaları yer alır.

Neleri İçeriyor?

- Türkçe’ye özel yapay zeka modeli oluşturma veya adaptasyon stratejileri
- Açık kaynak veri temini, temizleme ve etik filtreleme
- Model eğitimi için GPU mimarisi ve MLOps önerileri
- On-prem dağıtım için Kubernetes tabanlı referans mimari
- KVKK ve ISO/IEC 42001 uyum önerileri
- Maliyet hesaplama ve ROI analizleri
Kısacası, bu doküman yalnızca bir teknik döküman değil; aynı zamanda yapay zekâ stratejinizi hayata geçirmek için bir rehberdir.

Giriş: Neden Türkçe LLM?

İş Gerekçesi

Veri Egemenliği – Yasalar verinizin yurt dışına çıkmasını kısıtlar; kurum içinde çalışan bir LLM bu riski ortadan kaldırır.
Müşteri Deneyimi – Makine çevirisi yerine ana dilde içerik üretmek, yanlış anlama oranını %11 azaltır.
Toplam Maliyet – Kullandıkça öde SaaS modellerine göre iki yılda %35 tasarruf.

📊 Ne Demek? SaaS token maliyeti = bulut hizmet sağlayıcısına her 1 000 karakterlik kullanım için ödediğiniz ücret. Kendi modelinizi kurduğunuzda bu ücret donanım maliyetine dönüşür.

Kapsam ve Hedef Kitle

Rol	Bu kılavuz ona ne kazandırır?
CTO / CIO	Yatırım kararı için özet risk–fayda tablosu
ML Mühendisi	Veri hattı, eğitim parametreleri, kod örnekleri
DevOps / MLOps	Kubernetes, izleme, otomatik ölçekleme reçetesi

Başarı Ölçütleri

TR‑MMLU ≥ 70 %
📊 Ne Demek? TR‑MMLU (DOI: 10.5281/zenodo.13378019) Türkiye’de 67 bölüm ve 800’den fazla konu içeren, tamamı özgün Türkçe kaynaklardan oluşturulmuş 293 468 soruluk dev bir ölçme setidir. Sorular TUS, KPSS, üniversite ders sınavları gibi gerçek sınav verilerinden derlenmiştir ve İngilizce’den çevrilmemiştir.
📊 Ne Demek? Bu ölçekte %70 doğruluk, geniş konular yelpazesinde “ortalama insan performansı” eşiği olarak kabul edilir.
Ortalama yanıt gecikmesi < 350 ms (8K prompt, INT8)
📊 Ne Demek? Kullanıcı 8 000 karakterlik bir soru sorduğunda ilk cevabı yarım saniyeden kısa sürede alırsa sohbet akıcı hissedilir.
PII sızıntısı < 0.1 %
📊 Ne Demek? Test edilen 1 000 sohbette kişisel veri (TC Kimlik no, e‑posta…) istemeden ortaya çıkıyorsa bu 1’den az olmalıdır.

Türkçe NLP Ekosisteminin Mevcut Durumu

Mevcut Modeller

Model	Parametre	Mimari	Lisans	Avantaj	Sınır
BERTurk	110 M	Encoder	Apache‑2.0	Olgun, devlet kurumlarında bile kullanılıyor	Sadece anlayıp etiketler, metin üretmez
Hamza‑xl	1.3 B	Decoder	MIT	Türkçe’ye özel ilk açık‑ağırlık üretken model; 300 B token veriyle eğitildi; akademik olarak değerlendirildi (Bridging the Bosphorus, 2024)	Parametre sayısı görece küçük; karmaşık uzun bağlamlarda sınırlı performans (TR‑MMLU ≈ 35 puan)
Aya‑23‑8B	8 B	Decoder	Apache‑2.0	Çok‑dilli, ücretsiz	Türkçe hecelemeyi tam öğrenemedi

📊 Ne Demek? Parametre = modeldeki ayarlanabilir bilyonlarca sayı. Sayı büyüdükçe model “daha zeki” olur ama daha ağır çalışır.

Veri Seti Mühendisliği

Veri Kaynakları – Kim, Ne, Ne Kadar?

Kaynak	Boyut	“Temiz” mi?	Lisans
Türkçe Vikipedi	0.9 GB	Evet	CC‑BY‑SA 4.0
TBMM Tutanakları	4 GB	Evet	Kamu malı
Twitter (2020‑24)	18 GB	Hayır (küfür, spam)	Kullanım kısıtlı

📊 Ne Demek? Temiz veri = dil bilgisi düzgün, çok az küfür ve tekrar içeriyor. “Kirli veri” kötü sonuç çıkarır çünkü model hatayı da öğrenir.

5 Adımda Data Temizliği

OCR / Extractor – PDF’leri düz yazıya çevir.
Dedupe – Aynı cümleyi ikinci kez at; bellek israfı önlenir.
Unicode Düzeltme – Noktasız ‘I’ hatası gider.
Toksisite Süzgeci – Küfürleri ayıkla (bknz. Bölüm 4).
Parçala & Kaydet – Veriyi 1 GB’lik “parquet” dilimlere böl.

Kalite Metrikleri – Nasıl Ölçülür?

Average line length (< 250)
Uzun satırlar genelde kod, reklam veya spamdır.
Unique trigram ratio (> 0.8)
Üç kelimelik kombinasyonların %80’i benzersizse yinelenme az demektir.

📊 Ne Demek? Trigram = art arda gelen üç kelime. Aynı trigram sık sık çıkıyorsa veride kopya çoktur.

Toksisite ve Önyargı Azaltımı

Neden Önemli?

Küfür veya nefret söylemi içeren veriler eğitilirse model de aynısını tekrarlar → marka itibarınız zedelenir, KVKK cezası alırsınız.

Pipeline’ı Basitleştir

Adım	Ne yapar?	Araç
Ön‑tarama	Riskli cümleleri puanlar	Detoxify
Regex	Türkçe küfür listesini yakalar	Python re
İnsan Kontrolü	Şüpheli %10 veriye bakar	Label Studio

📊 Ne Demek? Toxicity score 0–1 arasında gider. 0.4 üstü “sakıncalı” kabul edilir.

Önyargı (Bias) Testi

Kadın‑erkek, bölge, din gibi konularda ayrımcılık yapmamak için karşılıklı cümleler hazırlayıp modele sorulur; skorlar çok farklıysa ek veri eklenir veya ağırlıklar ayarlanır.

Model Tasarımı ve Eğitim Stratejileri

Başlangıç Modelini Seçmek

Devam Eğitim (Continued pre‑train) = Var olan bir İngilizce‑ağırlıklı modeli al, Türkçe veriyle biraz daha eğit. Daha hızlı ve ucuz.
Sıfırdan Eğitim = Baştan Türkçe öğrenir, en iyi kalite ama pahalı.

📊 Ne Demek? Epoch = Tüm veri kümesinin modele bir kez gösterilmesi. 3 epoch → veri 3 defa okunur.

Parametre–Donanım Tablosu

Devam Eğitim (Continued pre‑train) = Var olan bir İngilizce‑ağırlıklı modeli al, Türkçe veriyle biraz daha eğit. Daha hızlı ve ucuz.
Sıfırdan Eğitim = Baştan Türkçe öğrenir, en iyi kalite ama pahalı.

📊 Ne Demek? Epoch = Tüm veri kümesinin modele bir kez gösterilmesi. 3 epoch → veri 3 defa okunur.

Değerlendirme & Benchmark

Otomatik Skorlar – Hızlı Sağlık Taraması

Metrik	Ne Ölçer?	“İyi” Değer
Perplexity	Model metni ne kadar öngörebiliyor?	6‑8 arası
TR‑MMLU Accuracy	293 K Türkçe soru paketinde doğru oran	%70+
XNLI‑TR Accuracy	Cümleler aynı mı çelişiyor mu?	%82+
TurkishQuAD F1	Paragraftan doğru cevabı bulma	%80+	F1**	Paragraftan doğru cevabı bulma	%80+

📊 Ne Demek? Perplexity = Modelin tahmin belirsizliği. İnsan diline “şüphe katsayısı” diyebiliriz. Düşük sayı → iyi tahmin.

Model Sıkıştırma & Optimizasyon

Quantization

Bir modeli tam sayılarla (INT8, INT4) saklamak, belleği %50‑70 azaltır; hızlanır. Kalite %1 civarı düşer.

Distilasyon – Öğrenci & Öğretmen Analojisi

Büyük “öğretmen” model, aynı soruları yanıtlar; küçük “öğrenci” bu cevapları öğrenir. Böylece hafif model yüksek kaliteye yaklaşır.

On Premise Dağıtım Mimarisi

Gateway – Dış dünyadan gelen ilk kapı.
OIDC Auth – Kullanıcı gerçekten yetkili mi?
Rate Limiter – Dakikada kaç istek? DDoS önler.
TGI (Text Generation Inference) – Asıl model sunucusu.
Redis Cache – Aynı soruya anında yanıt.
Prometheus – Sistem yoğunluk ölçer; CPU/GPU ne durumda?

KVKK & Güvenlik Uyum Kontrolleri

Ne Demek? PII = Kişiyi tanıtan bilgiler (TC, telefon, e‑posta). Hashlemek = Bilgiyi tek yönlü şifreleyip okunmaz hâle getirmek.

KVKK, Türkiye’de kişisel verilerin işlenmesini düzenleyen çerçevedir. Yapay zekâ sistemleri, özellikle büyük dil modelleri, işledikleri verinin niteliğine göre bu yasal düzenlemelere tabi olabilir. Kurumların veri sorumlusu sıfatıyla bu düzenlemelere uyumu sağlamak için dikkat etmesi gereken noktalar şunlardır:

KVKK Tavsiyeleri (Kaynak: KVKK Yayın No 76, 2024)

Başlık	Tavsiye	Ne Anlama Gelir?
Açık Rıza	Yapay zekânın kullanımı şeffaf şekilde anlatılmalı	Kullanıcılar hangi verinin işlendiğini açıkça bilmelidir
Veri Minimizasyonu	Gerekli olmayan veriler toplanmamalı	Modelin eğitildiği veri seti “amaçla sınırlı” olmalı
Şeffaflık	Modelin ne yaptığı kullanıcıya açıklanmalı	Model kartı, kullanım rehberi yayımlanmalı
Güvenlik	Prompt log’ları maskelenmeli	Kullanıcı cümlelerinde TC, e-posta vs. varsa anonimleştirilmeli
Etki Değerlendirmesi	Model yanlış karar alabilir mi, test edilmeli	Örneğin kredi skoru tahmin modeliniz önyargılıysa bu analiz edilmeli

Uyumluluk Aksiyonları

Kullanıcı verileriyle model eğitiyorsanız, açık rıza alın veya anonimleştirin.
Geliştirilen model için ISO/IEC 42001 çerçevesinde bir “AI Risk Değerlendirmesi” yapın.
Yapay zekâ çıktılarında “otomatik karar verme” varsa, kullanıcıya itiraz hakkı tanıyın.

Teknik Güvence Mekanizmaları

Prompt kayıtlarında e‑posta, TC gibi PII tespitinde maskeleme (örn. [MASK:TCNO])
Sızma testleri: Jailbreak prompt denemeleri, adversarial saldırılar
Erişim kontrolleri: Kimin hangi modeli çağırabildiği yetki bazlı yönetilmeli

Not: KVKK’ya uyum yalnızca hukuki değil, aynı zamanda marka güvenliği ve kullanıcı sadakati açısından da kritiktir.

Maliyet Modellemesi & ROI

Kalem	Tutar	Açıklama
GPU Amortisman	$4,390	8×A100, 36 ay ömür varsayımı
Personel	$11,000	ML mühendisi + MLOps 3 ay
Elektrik	$1,200	Ortalama 1kW güç tüketimi
Lisans	$0	Açık kaynak kullanımı
TOPLAM	$16,590

Geri Dönüş (ROI)
• Alternatif maliyet: ayda 10M token x $0.001 = $10,000
• Geri dönüş süresi: $16,590 ÷ $10,000 ≈ 1.6 ay
• 1 yıl içinde potansiyel tasarruf ≈ $100,000+

Sonuç ve Yol Haritası

Bu rehber, Türkçe’ye özgü LLM geliştirme sürecinde teknik, etik ve yasal boyutları bir arada ele alarak kuruma özgü bir yol çizmek için hazırlandı.

Önerilen Adımlar

Veri Katmanı: Veri kaynakları belirlenip temizlik süreci başlatılır.
Modelleme: Devam eğitimi veya LoRA üzerinden Türkçeye uyarlama yapılır.
Değerlendirme: TR-MMLU ve Türkçe görevlerde başarı hedefi belirlenir.
Dağıtım: GPU altyapısı ile on-prem TGI kurulumu yapılır.
Güvenlik & Uyum: KVKK risk analizleri, anonimleştirme ve erişim kontrol adımları tamamlanır.

Ekler

Ek A — Veri Temizlik Kontrol Listesi

Bu kontrol listesi, model eğitimi öncesinde veri kalitesini artırmak için uygulanması gereken temizleme adımlarını içerir. Her adım, modelin daha güvenilir, etik ve etkili sonuçlar üretmesini sağlar.

Unicode Normalizasyonu

Karakter kodlaması tutarlı hale getirildi (NFC, UTF-8).
📌 Neden? Noktasız I/İ gibi Türkçeye özgü karakter hatalarını önler.

Deduplikasyon (Yinelenen Veri Temizliği)

Jaccard benzerlik oranı ≥ 0.8 olan satırlar kaldırıldı.
📌 Neden? Aynı içeriği tekrar tekrar görmemesi modelin çeşitlilik öğrenmesini sağlar.

Küfür/Toksisite Taraması

Detoxify veya özel regex filtreleriyle toksik cümleler temizlendi.
📌 Neden? Zararlı söylemlerin modele yansımasını engeller.

Çok Kısa Satırların Atılması

20 karakterden kısa satırlar atıldı (ör. “ok.”, “tamam”).
📌 Neden? Bunlar bağlamsız ve model için yararsız örneklerdir.

OCR Temizliği (Varsa PDF Kaynaklı)

Karakter hataları, sayfa numaraları ve satır bölünmeleri düzeltildi.
📌 Neden? Sayfa yapısından gelen bozulmalar modelin anlam kurmasını zorlaştırır.

Tarih ve Sayı Filtreleme (isteğe bağlı)

Aşırı tarih/sayı içeren içerikler gözden geçirildi.
📌 Neden? Model gereksiz ezber öğrenmemeli (ör. sürekli “2023 yılında…” gibi tekrarlar).### Ek B — DeepSpeed Konfigürasyonu (Örnek)

{

“zero_optimization”: {

“stage”: 3,

“offload_param”: {

“device”: “nvme”,

“nvme_path”: “/nvme”

}

“train_batch_size”: 128,

“gradient_accumulation_steps”: 4,

“bf16”: { “enabled”: true }

}

Liderlik ve İletişim Eğitimleri

Agile ve Scrum Eğitimleri

AI Eğitimleri

SAFe Eğitimleri

Türkçe Dil Modelleri Eğitimi ve On Premise Dağıtımı Kılavuzu

İçindekiler