Tesseract OCR kullanarak Çince karakter tanıma

Resim metni ayıklamak için Tesseract 3.0.2 OCR SDK kullanıyorum. Ama eğer Çince metin görüntüleri kullanırsam ve OCR'den geçersem Tesseract bana sayısal ve ingilizce karakterler alıyorum yerine bana Çince karakterler sağlamaz. Ama kullandığım görüntüde gösterilen Çince karakterlere ihtiyacım var.Tesseract OCR kullanarak Çince karakter tanıma

Bunu nasıl başarabilirim? Diğer karakterler yerine Çince karakterler elde etmenin herhangi bir yolu var mı?

kaynak

2013-05-16 Nishant Tyagi

Sen çince eğitimli veri indirmek için gereken (bu chi_sim.traineddata gibi bir dosya olacaktır) ve tessdata klasörüne ekleyin.

dosyayı https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

indirin ve (Çince dil desteği ile) Eğer tessaract ile Denememi indirebilirsiniz herhangi bir sorun varsa https://github.com/aryansbtloe/ExperimentWithTesseract.git

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

gibi kullanmak için Bunu test ettim ... Umarım bu işe yarar.

kaynak

2013-05-16 08:43:05

Teşekkürler :-) –

Alok, Numunenizi denedim ve denediğim basit Çince karakterlerin yaklaşık yarısı üzerinde çalışıyor. Geri kalanlar için, her biri bileşik karakterde bir bileşeni temsil eden veya tamamen yanlış olan birkaç farklı karakter olarak bir bileşik karakter tanıyabilir. Tanıma doğruluğunu geliştirmek için herhangi bir yöntem biliyor musunuz? – CodePlumber

Yeni eğitimli veri bağlantısı https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –

Tesseract OCR kullanarak Çince karakter tanıma

cevap

İlgili konular