Bir görüntüden sayıları taramak için bir uygulama yazıyorum.Tesseract iki sayıyı karıştırıyor
Numaralar OCR-B yazı tipini kullanıyor ve +
ve >
karakterleri içerebilir. bahsedilen karakterlerin karakter kümesini sınırlayan bile tesseract kullanılarak
taramaları, çok iyi değildi:
Bu benim kaynak görüntüdür. Tesseract için herhangi bir OCRB eğitim dosyası bulamadığımdan, kendimi eğitmeye karar verdim.
this training image'u oluşturdum ve bir kutu dosyası oluşturdum. Kutu dosyası doğru, tüm harfler doğru şekilde eşleştirildi.
Diğer gerekli dosyaları oluşturmak için tüm adımları described here yaptım.
Bu yeni eğitilmiş OCR-B tessdata kümesini kullanarak, küçük bir hata ile kaynak görüntüde oldukça iyi sonuçlar elde ediyorum: Tüm 1
s 8
s ve vice-versa ile karıştırılmıştır. Görüntüyü işlemek için kullanılan komut oldu
$ tesseract esr2c.tif ocrb-esr2c -l ocrb
ve tüm
1
takas olursa kaynak görüntü için çıkış> 8 00000195731208 8 01050008 023+ 08 0301226> 20
0800000001456 oldu s ve 8
s ve bunu kaynak görüntüyle karşılaştır, çıktı doğru olurdu (göz ardı edemeyeceğim son iki harf hariç).
Bu nasıl olabilir? Eğitim sürecinde hata yaptım mı? Bunu nasıl düzeltebilirim?
Bu verinin gönderilmesinde güvenlikle ilgili bir etkisi yok mu? –
@andrew gerçekten değil. referans kimliğinde hiçbir kişisel bilgi olmadan sadece eski, geçersiz bir fatura. –
@DaniloBargen: Mümkünse, OCRB yazı tipi için eğitim verilerini paylaşır mısınız? –