2013-05-16 25 views
11

Resim metni ayıklamak için Tesseract 3.0.2 OCR SDK kullanıyorum. Ama eğer Çince metin görüntüleri kullanırsam ve OCR'den geçersem Tesseract bana sayısal ve ingilizce karakterler alıyorum yerine bana Çince karakterler sağlamaz. Ama kullandığım görüntüde gösterilen Çince karakterlere ihtiyacım var.Tesseract OCR kullanarak Çince karakter tanıma

Bunu nasıl başarabilirim? Diğer karakterler yerine Çince karakterler elde etmenin herhangi bir yolu var mı?

cevap

11

Sen çince eğitimli veri indirmek için gereken (bu chi_sim.traineddata gibi bir dosya olacaktır) ve tessdata klasörüne ekleyin.

dosyayı https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

indirin ve (Çince dil desteği ile) Eğer tessaract ile Denememi indirebilirsiniz herhangi bir sorun varsa https://github.com/aryansbtloe/ExperimentWithTesseract.git

bu

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"]; 

gibi kullanmak için Bunu test ettim ... Umarım bu işe yarar.

+1

Teşekkürler :-) –

+0

Alok, Numunenizi denedim ve denediğim basit Çince karakterlerin yaklaşık yarısı üzerinde çalışıyor. Geri kalanlar için, her biri bileşik karakterde bir bileşeni temsil eden veya tamamen yanlış olan birkaç farklı karakter olarak bir bileşik karakter tanıyabilir. Tanıma doğruluğunu geliştirmek için herhangi bir yöntem biliyor musunuz? – CodePlumber

+1

Yeni eğitimli veri bağlantısı https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –

İlgili konular