Yazı
Şirket İçi Küçük Dil Modelleriyle Belge Anlama Hatları Oluşturma
OCR entegrasyonu, düzen analizi, varlık çıkarma ve sınıflandırma iş akışlarını kapsayan, şirket içi küçük dil modellerini kullanarak belge anlama hatları oluşturmaya yönelik pratik bir kılavuz.
Belge anlama neden şirket içi SLM'ler için doğal bir kullanım alanıdır?
Kurumsal belge işleme, şirket içi küçük dil modelleri için en zorlayıcı kullanım alanlarından biridir. Finans, sağlık, hukuk ve kamu sektöründeki organizasyonlar yıllık milyonlarca belge işler: faturalar, sözleşmeler, tıbbi kayıtlar, düzenleyici dosyalar, sigorta talepleri ve yazışmalar. Bu belgeler, harici bulut API'lerine gönderilemeyecek hassas bilgiler içerir ve bu da şirket içi işlemeyi tercih değil zorunluluk haline getirir.
1B ila 7B parametre aralığındaki küçük dil modelleri, belge anlama görevleri için özellikle uygundur. Açık uçlu konuşma yapay zekasından farklı olarak, belge işleme iyi tanımlanmış girdi ve çıktılara sahip yapılandırılmış, tekrarlanabilir görevler içerir: fatura toplamını çıkar, sözleşme türünü sınıflandır, tarafları belirle, uyumluluk sorunlarını işaretle. Bu görevler 70B modelin geniş dünya bilgisini gerektirmez. İnce ayarlanmış 3B bir model, belirli belge türlerinde çok daha büyük genel amaçlı bir modelin performansını eşleyebilir veya aşabilir.
Ekonomik açıdan da avantajlıdır. Tek bir kurumsal sınıf GPU (48 GB bellekli NVIDIA L40S gibi) birden fazla SLM'yi aynı anda çalıştırarak saatte yüzlerce belge işleyebilir. Bu, aynı hacim için bir bulut API'ye token başına ücret ödemekten çok daha maliyet etkindir.
Hat mimarisi: ham belgeden yapılandırılmış çıktıya
Üretim düzeyinde bir belge anlama hattı tek bir model çağrısı değildir. Her aşamanın belge işlemenin belirli bir yönünü ele aldığı çok aşamalı bir hattır. Aşamalar tipik olarak şunlardır: alım ve normalleştirme, OCR ve metin çıkarma, düzen analizi, varlık çıkarma, sınıflandırma ve doğrulama.
Alım aşamasında belgeler çeşitli formatlarda gelir: taranmış PDF'ler, dijital PDF'ler, Word belgeleri, görseller ve ekli e-postalar. Her şeyi ortak bir ara formata normalleştirin. Taranmış belgeler için bu, her sayfayı yüksek çözünürlüklü bir görüntüye dönüştürmek anlamına gelir (minimum 300 DPI). Dijital PDF'ler için düzen koordinatlarını koruyarak gömülü metin katmanını çıkarın.
OCR aşaması görüntüleri metne dönüştürür. Şirket içi dağıtım için LSTM modelleriyle Tesseract 5 sağlam bir açık kaynak temel sağlar. Özellikle tablolar ve el yazısı içeren karmaşık düzenlerde daha yüksek doğruluk için tamamen şirket içinde GPU hızlandırmasıyla çalışan PaddleOCR veya EasyOCR'ı düşünün. OCR aşaması yalnızca ham metin değil, aynı zamanda düzen analizi aşaması için gerekli olan her metin öğesi için sınırlayıcı kutu koordinatlarını da çıkarmalıdır.
Kritik olarak, hattı doğrusal bir dizi yerine yönlendirilmiş çevrimsiz graf (DAG) olarak tasarlayın. Bu, aşamaların mümkün olduğunda paralel çalışmasına (örneğin OCR birden fazla sayfayı aynı anda işleyebilir) ve koşullu dallanmaya (gömülü metinli dijital PDF'ler için OCR'yi tamamen atlayın) olanak tanır.
Düzen analizi ve belge yapısı tanıma
Ham OCR çıktısı, orijinal belgenin mekansal yapısını kaybetmiş düz bir metin akışıdır. Düzen analizi bu yapıyı kurtarır: başlıkları, paragrafları, tabloları, listeleri, şekilleri ve sayfa bölgelerini belirler. Bu yapısal bilgi, aşağı akış çıkarma için kritiktir çünkü SLM'ye hangi metnin birbirine ait olduğunu ve belgede ne rol oynadığını söyler.
Düzen analizi için belge düzeni algılama modelleri son derece etkili hale gelmiştir. LayoutLMv3 ve DiT (Document Image Transformer) gibi modeller, belge bölgelerini sınıflandırmak için belge görüntüsündeki görsel özellikleri OCR'den gelen metin özellikleriyle birleştirir. Bu modeller yeterince küçüktür (tipik olarak 500M parametrenin altında) ve GPU kaynakları için rekabet etmeden SLM'lerinizin yanında şirket içinde çalışabilir.
Tablo tespiti ve çıkarma özel dikkat gerektirir çünkü tablolar kurumsal belgelerde her yerde bulunur ve işlenmesi oldukça zordur. Özel bir tablo çıkarma adımı şunları yapmalıdır: belge görüntüsünde tablo sınırlarını tespit etmek, satır ve sütun yapısını belirlemek, hücre içeriklerini ızgara konumlarıyla birlikte çıkarmak ve yapılandırılmış bir temsil (JSON veya DataFrame) çıkarmak. DETR mimarisi üzerine kurulu Table Transformer modelleri bunu iyi yapar.
Düzen analizinin çıktısı yapılandırılmış bir belge temsilidir: türleri, sınırlayıcı kutuları, okuma sırası ve metin içeriği olan belge öğelerinin bir ağacı veya grafı. SLM'ye çıkarma ve sınıflandırma için ham OCR metni değil bu temsili geçirirsiniz. Yapısal bağlam sağlamak, SLM'nin bilgileri doğru bir şekilde çıkarma yeteneğini dramatik biçimde geliştirir.
İnce ayarlanmış SLM'lerle varlık çıkarma
Varlık çıkarma, küçük dil modellerinin belge anlamada parladığı yerdir. Görev, yapılandırılmış belgeden belirli bilgi parçalarını belirlemek ve çıkarmaktır: fatura numaraları, tutarlar, tarihler, taraf adları, madde türleri, tanı kodları veya iş sürecinizin gerektirdiği her şey.
En etkili yaklaşım ince ayarlanmış SLM'lerle istem tabanlı çıkarmadır. Bir temel SLM ile başlayın (Phi-3, Llama 3 8B veya Mistral 7B güçlü seçeneklerdir) ve doğru çıkarmalarla açıklanmış örnekler kullanarak belirli belge türleriniz üzerinde ince ayar yapın. 500 ila 1000 açıklamalı örnekle ince ayar, iyi tanımlanmış varlık türleri için tipik olarak %90'ın üzerinde çıkarma doğruluğu sağlar.
Çıkarma istemlerinizi önceki aşamadaki düzen bilgilerinden yararlanacak şekilde yapılandırın. Ham metin geçirmek yerine, girdiyi belge yapısını koruyacak şekilde biçimlendirin.
Yapılandırılmış çıktı uygulaması için SLM'yi geçerli JSON üretmeye kısıtlayın. Outlines ve llama.cpp'nin gramer tabanlı örneklemesi gibi frameworkler, model çıktısının her zaman beklenen şemanıza uymasını sağlar ve ayrıştırma hatalarını ortadan kaldırır.
Çıkarma modellerini belge türüne özgü yönlendirme ile dağıtın. Tüm belge türleri için tek bir model kullanmak yerine, her ana kategori (faturalar, sözleşmeler, tıbbi kayıtlar) için özelleştirilmiş modeller ince ayarlayın ve sınıflandırma aşamasına göre belgeleri uygun modele yönlendirin. Özelleştirilmiş modeller, tüm belge türlerini ele almaya çalışan tek bir genel model'den daha küçük, daha hızlı ve daha doğrudur.
Sınıflandırma, doğrulama ve insan katılımlı döngü
Belge sınıflandırması, hangi belge türünü işlediğinizi belirler ve bu da hangi çıkarma modeli ve şemanın uygulanacağını belirler. Sınıflandırma için SLM'ler genellikle gereğinden fazladır. İnce ayarlanmış bir BERT sınıfı model veya geleneksel bir metin sınıflandırıcı (TF-IDF ile lojistik regresyon) belgeleri %95'in üzerinde doğrulukla sınıflandırabilir ve milisaniyeler içinde çalışır.
Doğrulama, belge anlama hatlarında en az değer verilen aşamadır. Her çıkarma sonucu, aşağı akış sistemlerine girmeden önce iş kurallarına göre doğrulanmalıdır. Çıkarılan tarihlerin makul olduğunu, parasal tutarların satır öğesi toplamlarıyla eşleştiğini, gerekli alanların mevcut olduğunu ve varlık değerlerinin beklenen formatlara uyduğunu (geçerli IBAN'lar, doğru biçimlendirilmiş vergi numaraları) doğrulayın. Doğrulama hem OCR hatalarını hem de model halüsinasyonlarını yakalar.
Çıkarma güveninin bir eşiğin altında olduğu veya doğrulama kurallarının başarısız olduğu belgeler için bir insan inceleme kuyruğuna yönlendirin. İnsan incelemeciye belirsiz alanları vurgulayarak orijinal belge görüntüsünü çıkarılan verilerle birlikte sunun. İncelemecinin düzeltmelerini yakalayın ve ince ayar veri setinize geri besleyin. Bu, modelin zamanla daha iyi hale geldiği ve insan inceleme hacminin azaldığı bir sürekli iyileştirme döngüsü oluşturur. %20 ila %30 insan incelemesiyle başlayıp altı ay içinde %5'in altına düşürmeyi hedefleyin.
Performans optimizasyonu ve ölçekleme
Belge anlama hatları değişken yükleri kaldırmalıdır: ay sonu fatura artışları, üç aylık düzenleyici dosyalamalar veya geçmiş arşivlerin toplu işlenmesi. Donanımı sabit durum operasyonu için aşırı tahsis etmeden bu tepeler için tasarlayın.
Toplu işleme birincil verim kaldıracınızdır. Belgeleri birer birer işlemek yerine, birden fazla belgeyi (veya birden fazla sayfayı) her hat aşamasından toplu olarak geçirin. OCR, düzen analizi ve SLM çıkarımının hepsi toplu işlemeden yararlanır çünkü GPU çekirdek başlatma ek yükünü amorti eder ve bellek kullanımını iyileştirir.
Karışık iş yüklerini ele almak için öncelik kuyrukları uygulayın. Belgeleri inceleyen kullanıcılardan gelen etkileşimli istekler hemen işlenmelidir, toplu iş yükleri ise etkileşimli trafiğe yol vermelidir.
Yatay ölçekleme için hat aşamalarını bir mesaj kuyruğunun (RabbitMQ, Redis Streams veya Kafka) arkasında bağımsız mikro hizmetler olarak çalıştırın. Bu, her aşamayı verim özelliklerine göre bağımsız olarak ölçeklemenize olanak tanır. OCR tipik olarak CPU'ya bağlıdır. SLM çıkarımı GPU'ya bağlıdır ve GPU çalışanları ekleyerek ölçeklenir.
Darboğazları belirlemek için uçtan uca belge işleme süresini ve aşama başına gecikmeyi izleyin. Çoğu hatta SLM çıkarma aşaması darboğazdır. Bu durumda, daha küçük bir SLM (7B yerine 3B) kullanmayı, model nicemleme (INT8 veya INT4) uygulamayı veya mevcut GPU'lar arasında birden fazla SLM örneği dağıtmayı düşünün. Genellikle paralel çalışan iki 3B model, marjinal olarak daha iyi doğruluğa sahip tek bir 7B modelden daha yüksek verim sağlar.
Öne çıkan görsel: Zheng Yang tarafından Unsplash'ta paylaşılmıştır.
SysArt AI
Bu YZ konusuna devam edin
Aynı karar alanını destekleyen ticari sayfalara ve konu arşivine geçmek için bu bağlantıları kullanın.
Okuyucuların sık sorduğu sorular
Kurumsal belge işlemede küçük dil modelleri büyük LLM'lere göre neden daha uygundur?
Fatura çıkarma, sözleşme sınıflandırma ve varlık etiketleme gibi belge görevleri yapılandırılmış ve tekrarlanabilir niteliktedir. Tek bir şirket içi GPU'da çalışan ince ayarlı 3B-7B model, belirli belge türlerinde 70B'lik genel bir modelin performansını eşleyebilir veya aşabilir; bunu çok daha düşük maliyetle ve tam veri yerleşikliği güvencesiyle yapar.
Üretim hattında en sık karşılaşılan darboğaz hangisidir?
SLM çıkarım aşaması neredeyse her zaman sınırlayıcı faktördür çünkü tokenler oto-regresif olarak üretilir. Çözümler arasında daha küçük uzmanlaşmış model kullanmak, INT8 veya INT4 nicemleme uygulamak, çıkarım başına 8-16 belge gruplamak ve kullanılabilir GPU'larda paralel model örnekleri çalıştırmak sayılabilir.
Hat doğruluğunu sürekli insan denetimine bağımlı kalmadan nasıl koruyabiliriz?
Düşük güven skorlu veya kural başarısızlığı bulunan çıkarımları insan inceleme kuyruğuna yönlendirin, düzeltmeleri toplayın ve ince ayar veri setine geri besleyin. İyi tasarlanmış bir döngü genellikle yüzde 20-30 insan denetimiyle başlar ve altı ay içinde yüzde 5'in altına düşer.
Belgelerin çoğu dijital PDF ise OCR yine gerekli mi?
Evet. Kurumsal belge akışları neredeyse her zaman taranmış ekler, fotoğraflanmış formlar ve eski arşivler içerir. Hat dallanmalı tasarlanmalıdır: dijital PDF'lerden gömülü metin doğrudan çıkarılır; taranmış veya görüntü tabanlı belgeler GPU hızlandırmalı Tesseract 5, PaddleOCR veya EasyOCR üzerinden geçer.