2016-03-23 30 views
1

Veri kazıma konusunda oldukça yeni ve küçük bir sorunla karşı karşıyayım.Eğitim Tesseract OCR belirsizlikler için

textract ve Tesseract OCR kullanarak bir Hintçe pdf'den metin ayıklamak çalışıyorum.

Şimdi
import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin') 

, PDF kelimelerin pek doğru ayıklanır: Python kod aşağıdadır. Ancak, berbat bazı şeyler vardır. Belgeleri okudum ve lang.unicharambigs bir dosya kullanarak belirsizliğin nasıl geçersiz kılınabileceği hakkında. Bununla birlikte, aslında onu uygulamaya geçirmek ve belirli eğitilmiş verileri geçersiz kılmak için combine_tessdata'u çalıştırmam gerekiyor. Ancak

, ben şu olsun komutu çalıştırmayı denediğinizde: Ben kaynağından tesseract yüklemiş

-bash: combine_tessdata: command not found 

ve ben bunun neden olduğunu anlamak gibi olamaz. Bunu nasıl gidereceğinizle ilgili herhangi bir fikir var mı?

Şimdiden teşekkürler!

cevap

İlgili konular