Resim metni ayıklamak için Tesseract 3.0.2 OCR SDK kullanıyorum. Ama eğer Çince metin görüntüleri kullanırsam ve OCR'den geçersem Tesseract bana sayısal ve ingilizce karakterler alıyorum yerine bana Çince karakterler sağlamaz. Ama kullandığım görüntüde gösterilen Çince karakterlere ihtiyacım var.Tesseract OCR kullanarak Çince karakter tanıma
Bunu nasıl başarabilirim? Diğer karakterler yerine Çince karakterler elde etmenin herhangi bir yolu var mı?
Teşekkürler :-) –
Alok, Numunenizi denedim ve denediğim basit Çince karakterlerin yaklaşık yarısı üzerinde çalışıyor. Geri kalanlar için, her biri bileşik karakterde bir bileşeni temsil eden veya tamamen yanlış olan birkaç farklı karakter olarak bir bileşik karakter tanıyabilir. Tanıma doğruluğunu geliştirmek için herhangi bir yöntem biliyor musunuz? – CodePlumber
Yeni eğitimli veri bağlantısı https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –