Eğitim Tesseract OCR belirsizlikler için

Veri kazıma konusunda oldukça yeni ve küçük bir sorunla karşı karşıyayım.Eğitim Tesseract OCR belirsizlikler için

textract ve Tesseract OCR kullanarak bir Hintçe pdf'den metin ayıklamak çalışıyorum.

Şimdi

import textract 

text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')

, PDF kelimelerin pek doğru ayıklanır: Python kod aşağıdadır. Ancak, berbat bazı şeyler vardır. Belgeleri okudum ve lang.unicharambigs bir dosya kullanarak belirsizliğin nasıl geçersiz kılınabileceği hakkında. Bununla birlikte, aslında onu uygulamaya geçirmek ve belirli eğitilmiş verileri geçersiz kılmak için combine_tessdata'u çalıştırmam gerekiyor. Ancak

, ben şu olsun komutu çalıştırmayı denediğinizde: Ben kaynağından tesseract yüklemiş

-bash: combine_tessdata: command not found

ve ben bunun neden olduğunu anlamak gibi olamaz. Bunu nasıl gidereceğinizle ilgili herhangi bir fikir var mı?

Şimdiden teşekkürler!

kaynak

2016-03-23 Rishabh Ranawat

Tesseract eğitim yürütülebilirleri ayrı olarak üretilir.

https://github.com/tesseract-ocr/tesseract/wiki/Compiling

kaynak

2016-03-24 01:06:37 nguyenq

Tamamen mantıklı. Ancak, şu anda karşılaştığım sorun, bu kütüphaneleri bir Mac OSX'e nasıl yüklerim? libicu-dev libpango1.0-dev libcairo2-dev ' –

Eğitim Tesseract OCR belirsizlikler için

cevap

İlgili konular