Türkçe Dil Modelleri Eğitimi ve On Premise Dağıtımı Kılavuzu
Bu kılavuz, Türkiye’de faaliyet gösteren kurum ve kuruluşların, kendi büyük dil modellerini (LLM) kurarak yapay zekâdan azami faydayı sağlamaları için hazırlanmıştır. Özellikle Türkçe diline özgü ihtiyaçlar, yasal düzenlemeler (örneğin KVKK), veri kalitesi, model seçimi, eğitim altyapısı ve dağıtım stratejileri gibi konulara odaklanır.

İçindekiler
Neden Bu Kılavuz Var?
Bu Kaynak Kılavuzun Amacı
Kurumsal yapay zekâ projeleri çoğu zaman, model eğitiminin ötesinde zorluklarla karşılaşır:
- Türkçe yapay zeka için veri kaynaklarının yetersizliği
- Yasal uyum (KVKK, ISO/IEC 42001)
- GPU altyapısı, lisanslama ve maliyet yönetimi
- Doğru değerlendirme metriklerinin bilinmemesi
Bu kılavuz; teknik ekiplerin hızlıca uygulayabileceği kod parçaları ve kontrol listeleriyle, karar vericilerin ise stratejik yol haritasını oluşturabileceği şeffaf açıklamalarla hazırlanmıştır. Her teknik kavramın hemen altında “📊 Ne Demek?” açıklamaları yer alır.
Neleri İçeriyor?
- Türkçe’ye özel yapay zeka modeli oluşturma veya adaptasyon stratejileri
- Açık kaynak veri temini, temizleme ve etik filtreleme
- Model eğitimi için GPU mimarisi ve MLOps önerileri
- On-prem dağıtım için Kubernetes tabanlı referans mimari
- KVKK ve ISO/IEC 42001 uyum önerileri
- Maliyet hesaplama ve ROI analizleri
Kısacası, bu doküman yalnızca bir teknik döküman değil; aynı zamanda yapay zekâ stratejinizi hayata geçirmek için bir rehberdir.
Giriş: Neden Türkçe LLM?
İş Gerekçesi
- Veri Egemenliği – Yasalar verinizin yurt dışına çıkmasını kısıtlar; kurum içinde çalışan bir LLM bu riski ortadan kaldırır.
- Müşteri Deneyimi – Makine çevirisi yerine ana dilde içerik üretmek, yanlış anlama oranını %11 azaltır.
- Toplam Maliyet – Kullandıkça öde SaaS modellerine göre iki yılda %35 tasarruf.
📊 Ne Demek? SaaS token maliyeti = bulut hizmet sağlayıcısına her 1 000 karakterlik kullanım için ödediğiniz ücret. Kendi modelinizi kurduğunuzda bu ücret donanım maliyetine dönüşür.
Kapsam ve Hedef Kitle
Rol | Bu kılavuz ona ne kazandırır? |
CTO / CIO | Yatırım kararı için özet risk–fayda tablosu |
ML Mühendisi | Veri hattı, eğitim parametreleri, kod örnekleri |
DevOps / MLOps | Kubernetes, izleme, otomatik ölçekleme reçetesi |
Başarı Ölçütleri
- TR‑MMLU ≥ 70 %
📊 Ne Demek? TR‑MMLU (DOI: 10.5281/zenodo.13378019) Türkiye’de 67 bölüm ve 800’den fazla konu içeren, tamamı özgün Türkçe kaynaklardan oluşturulmuş 293 468 soruluk dev bir ölçme setidir. Sorular TUS, KPSS, üniversite ders sınavları gibi gerçek sınav verilerinden derlenmiştir ve İngilizce’den çevrilmemiştir.
📊 Ne Demek? Bu ölçekte %70 doğruluk, geniş konular yelpazesinde “ortalama insan performansı” eşiği olarak kabul edilir. - Ortalama yanıt gecikmesi < 350 ms (8K prompt, INT8)
📊 Ne Demek? Kullanıcı 8 000 karakterlik bir soru sorduğunda ilk cevabı yarım saniyeden kısa sürede alırsa sohbet akıcı hissedilir. - PII sızıntısı < 0.1 %
📊 Ne Demek? Test edilen 1 000 sohbette kişisel veri (TC Kimlik no, e‑posta…) istemeden ortaya çıkıyorsa bu 1’den az olmalıdır.
Türkçe NLP Ekosisteminin Mevcut Durumu
Mevcut Modeller
Model | Parametre | Mimari | Lisans | Avantaj | Sınır |
BERTurk | 110 M | Encoder | Apache‑2.0 | Olgun, devlet kurumlarında bile kullanılıyor | Sadece anlayıp etiketler, metin üretmez |
Hamza‑xl | 1.3 B | Decoder | MIT | Türkçe’ye özel ilk açık‑ağırlık üretken model; 300 B token veriyle eğitildi; akademik olarak değerlendirildi (Bridging the Bosphorus, 2024) | Parametre sayısı görece küçük; karmaşık uzun bağlamlarda sınırlı performans (TR‑MMLU ≈ 35 puan) |
Aya‑23‑8B | 8 B | Decoder | Apache‑2.0 | Çok‑dilli, ücretsiz | Türkçe hecelemeyi tam öğrenemedi |
📊 Ne Demek? Parametre = modeldeki ayarlanabilir bilyonlarca sayı. Sayı büyüdükçe model “daha zeki” olur ama daha ağır çalışır.
Veri Seti Mühendisliği
Veri Kaynakları – Kim, Ne, Ne Kadar?
Kaynak | Boyut | “Temiz” mi? | Lisans |
Türkçe Vikipedi | 0.9 GB | Evet | CC‑BY‑SA 4.0 |
TBMM Tutanakları | 4 GB | Evet | Kamu malı |
Twitter (2020‑24) | 18 GB | Hayır (küfür, spam) | Kullanım kısıtlı |
📊 Ne Demek? Temiz veri = dil bilgisi düzgün, çok az küfür ve tekrar içeriyor. “Kirli veri” kötü sonuç çıkarır çünkü model hatayı da öğrenir.
5 Adımda Data Temizliği
- OCR / Extractor – PDF’leri düz yazıya çevir.
- Dedupe – Aynı cümleyi ikinci kez at; bellek israfı önlenir.
- Unicode Düzeltme – Noktasız ‘I’ hatası gider.
- Toksisite Süzgeci – Küfürleri ayıkla (bknz. Bölüm 4).
- Parçala & Kaydet – Veriyi 1 GB’lik “parquet” dilimlere böl.
Kalite Metrikleri – Nasıl Ölçülür?
- Average line length (< 250)
Uzun satırlar genelde kod, reklam veya spamdır. - Unique trigram ratio (> 0.8)
Üç kelimelik kombinasyonların %80’i benzersizse yinelenme az demektir.
📊 Ne Demek? Trigram = art arda gelen üç kelime. Aynı trigram sık sık çıkıyorsa veride kopya çoktur.
Toksisite ve Önyargı Azaltımı
Neden Önemli?
Küfür veya nefret söylemi içeren veriler eğitilirse model de aynısını tekrarlar → marka itibarınız zedelenir, KVKK cezası alırsınız.
Pipeline’ı Basitleştir
Adım | Ne yapar? | Araç |
Ön‑tarama | Riskli cümleleri puanlar | Detoxify |
Regex | Türkçe küfür listesini yakalar | Python re |
İnsan Kontrolü | Şüpheli %10 veriye bakar | Label Studio |
Önyargı (Bias) Testi
Kadın‑erkek, bölge, din gibi konularda ayrımcılık yapmamak için karşılıklı cümleler hazırlayıp modele sorulur; skorlar çok farklıysa ek veri eklenir veya ağırlıklar ayarlanır.
Model Tasarımı ve Eğitim Stratejileri
Başlangıç Modelini Seçmek
- Devam Eğitim (Continued pre‑train) = Var olan bir İngilizce‑ağırlıklı modeli al, Türkçe veriyle biraz daha eğit. Daha hızlı ve ucuz.
- Sıfırdan Eğitim = Baştan Türkçe öğrenir, en iyi kalite ama pahalı.
📊 Ne Demek? Epoch = Tüm veri kümesinin modele bir kez gösterilmesi. 3 epoch → veri 3 defa okunur.
Parametre–Donanım Tablosu
- Devam Eğitim (Continued pre‑train) = Var olan bir İngilizce‑ağırlıklı modeli al, Türkçe veriyle biraz daha eğit. Daha hızlı ve ucuz.
- Sıfırdan Eğitim = Baştan Türkçe öğrenir, en iyi kalite ama pahalı.
📊 Ne Demek? Epoch = Tüm veri kümesinin modele bir kez gösterilmesi. 3 epoch → veri 3 defa okunur.
Değerlendirme & Benchmark
Otomatik Skorlar – Hızlı Sağlık Taraması
Metrik | Ne Ölçer? | “İyi” Değer | |||
Perplexity | Model metni ne kadar öngörebiliyor? | 6‑8 arası | |||
TR‑MMLU Accuracy | 293 K Türkçe soru paketinde doğru oran | %70+ | |||
XNLI‑TR Accuracy | Cümleler aynı mı çelişiyor mu? | %82+ | |||
TurkishQuAD F1 | Paragraftan doğru cevabı bulma | %80+ | F1** | Paragraftan doğru cevabı bulma | %80+ |
Model Sıkıştırma & Optimizasyon
Quantization
Bir modeli tam sayılarla (INT8, INT4) saklamak, belleği %50‑70 azaltır; hızlanır. Kalite %1 civarı düşer.
Distilasyon – Öğrenci & Öğretmen Analojisi
Büyük “öğretmen” model, aynı soruları yanıtlar; küçük “öğrenci” bu cevapları öğrenir. Böylece hafif model yüksek kaliteye yaklaşır.
On Premise Dağıtım Mimarisi
- Gateway – Dış dünyadan gelen ilk kapı.
- OIDC Auth – Kullanıcı gerçekten yetkili mi?
- Rate Limiter – Dakikada kaç istek? DDoS önler.
- TGI (Text Generation Inference) – Asıl model sunucusu.
- Redis Cache – Aynı soruya anında yanıt.
- Prometheus – Sistem yoğunluk ölçer; CPU/GPU ne durumda?
KVKK & Güvenlik Uyum Kontrolleri
Ne Demek? PII = Kişiyi tanıtan bilgiler (TC, telefon, e‑posta). Hashlemek = Bilgiyi tek yönlü şifreleyip okunmaz hâle getirmek.
KVKK, Türkiye’de kişisel verilerin işlenmesini düzenleyen çerçevedir. Yapay zekâ sistemleri, özellikle büyük dil modelleri, işledikleri verinin niteliğine göre bu yasal düzenlemelere tabi olabilir. Kurumların veri sorumlusu sıfatıyla bu düzenlemelere uyumu sağlamak için dikkat etmesi gereken noktalar şunlardır:
KVKK Tavsiyeleri (Kaynak: KVKK Yayın No 76, 2024)
Başlık | Tavsiye | Ne Anlama Gelir? |
Açık Rıza | Yapay zekânın kullanımı şeffaf şekilde anlatılmalı | Kullanıcılar hangi verinin işlendiğini açıkça bilmelidir |
Veri Minimizasyonu | Gerekli olmayan veriler toplanmamalı | Modelin eğitildiği veri seti “amaçla sınırlı” olmalı |
Şeffaflık | Modelin ne yaptığı kullanıcıya açıklanmalı | Model kartı, kullanım rehberi yayımlanmalı |
Güvenlik | Prompt log’ları maskelenmeli | Kullanıcı cümlelerinde TC, e-posta vs. varsa anonimleştirilmeli |
Etki Değerlendirmesi | Model yanlış karar alabilir mi, test edilmeli | Örneğin kredi skoru tahmin modeliniz önyargılıysa bu analiz edilmeli |
Uyumluluk Aksiyonları
- Kullanıcı verileriyle model eğitiyorsanız, açık rıza alın veya anonimleştirin.
- Geliştirilen model için ISO/IEC 42001 çerçevesinde bir “AI Risk Değerlendirmesi” yapın.
- Yapay zekâ çıktılarında “otomatik karar verme” varsa, kullanıcıya itiraz hakkı tanıyın.
Teknik Güvence Mekanizmaları
- Prompt kayıtlarında e‑posta, TC gibi PII tespitinde maskeleme (örn. [MASK:TCNO])
- Sızma testleri: Jailbreak prompt denemeleri, adversarial saldırılar
- Erişim kontrolleri: Kimin hangi modeli çağırabildiği yetki bazlı yönetilmeli
Not: KVKK’ya uyum yalnızca hukuki değil, aynı zamanda marka güvenliği ve kullanıcı sadakati açısından da kritiktir.
Maliyet Modellemesi & ROI
Kalem | Tutar | Açıklama |
GPU Amortisman | $4,390 | 8×A100, 36 ay ömür varsayımı |
Personel | $11,000 | ML mühendisi + MLOps 3 ay |
Elektrik | $1,200 | Ortalama 1kW güç tüketimi |
Lisans | $0 | Açık kaynak kullanımı |
TOPLAM | $16,590 |
Geri Dönüş (ROI)
• Alternatif maliyet: ayda 10M token x $0.001 = $10,000
• Geri dönüş süresi: $16,590 ÷ $10,000 ≈ 1.6 ay
• 1 yıl içinde potansiyel tasarruf ≈ $100,000+
Sonuç ve Yol Haritası
Bu rehber, Türkçe’ye özgü LLM geliştirme sürecinde teknik, etik ve yasal boyutları bir arada ele alarak kuruma özgü bir yol çizmek için hazırlandı.
Önerilen Adımlar
- Veri Katmanı: Veri kaynakları belirlenip temizlik süreci başlatılır.
- Modelleme: Devam eğitimi veya LoRA üzerinden Türkçeye uyarlama yapılır.
- Değerlendirme: TR-MMLU ve Türkçe görevlerde başarı hedefi belirlenir.
- Dağıtım: GPU altyapısı ile on-prem TGI kurulumu yapılır.
- Güvenlik & Uyum: KVKK risk analizleri, anonimleştirme ve erişim kontrol adımları tamamlanır.
Ekler
Ek A — Veri Temizlik Kontrol Listesi
Bu kontrol listesi, model eğitimi öncesinde veri kalitesini artırmak için uygulanması gereken temizleme adımlarını içerir. Her adım, modelin daha güvenilir, etik ve etkili sonuçlar üretmesini sağlar.
- Unicode Normalizasyonu
- Karakter kodlaması tutarlı hale getirildi (NFC, UTF-8).
- 📌 Neden? Noktasız I/İ gibi Türkçeye özgü karakter hatalarını önler.
- Deduplikasyon (Yinelenen Veri Temizliği)
- Jaccard benzerlik oranı ≥ 0.8 olan satırlar kaldırıldı.
- 📌 Neden? Aynı içeriği tekrar tekrar görmemesi modelin çeşitlilik öğrenmesini sağlar.
- Küfür/Toksisite Taraması
- Detoxify veya özel regex filtreleriyle toksik cümleler temizlendi.
- 📌 Neden? Zararlı söylemlerin modele yansımasını engeller.
- Çok Kısa Satırların Atılması
- 20 karakterden kısa satırlar atıldı (ör. “ok.”, “tamam”).
- 📌 Neden? Bunlar bağlamsız ve model için yararsız örneklerdir.
- OCR Temizliği (Varsa PDF Kaynaklı)
- Karakter hataları, sayfa numaraları ve satır bölünmeleri düzeltildi.
- 📌 Neden? Sayfa yapısından gelen bozulmalar modelin anlam kurmasını zorlaştırır.
- Tarih ve Sayı Filtreleme (isteğe bağlı)
- Aşırı tarih/sayı içeren içerikler gözden geçirildi.
- 📌 Neden? Model gereksiz ezber öğrenmemeli (ör. sürekli “2023 yılında…” gibi tekrarlar).### Ek B — DeepSpeed Konfigürasyonu (Örnek)
{
“zero_optimization”: {
“stage”: 3,
“offload_param”: {
“device”: “nvme”,
“nvme_path”: “/nvme”
}
},
“train_batch_size”: 128,
“gradient_accumulation_steps”: 4,
“bf16”: { “enabled”: true }
}
Kaynakça
- TR-MMLU Benchmark (Zenodo)
- KVKK Rehberi: Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler
- Bridging the Bosphorus: Evaluating Turkish Language Models
- ISO/IEC 42001:2023 – AI Management System Standard
- Detoxify Model (Open Source)
- Hugging Face – Turkish Language Models
- TR-MMLU Benchmark (Zenodo)
- KVKK Rehberi: Yapay Zekâ Alanında Kişisel Verilerin Korunmasına Dair Tavsiyeler
- Bridging the Bosphorus: Evaluating Turkish Language Models
- ISO/IEC 42001:2023 – AI Management System Standard
- Detoxify Model (Open Source)
- Hugging Face – Turkish Language Models