Veri kazıma konusunda oldukça yeni ve küçük bir sorunla karşı karşıyayım.Eğitim Tesseract OCR belirsizlikler için
textract
ve Tesseract
OCR kullanarak bir Hintçe pdf'den metin ayıklamak çalışıyorum.
import textract
text = textract.parsers.process("test.pdf", encoding='utf_8', method='tesseract', language = 'hin')
, PDF kelimelerin pek doğru ayıklanır: Python kod aşağıdadır. Ancak, berbat bazı şeyler vardır. Belgeleri okudum ve lang.unicharambigs
bir dosya kullanarak belirsizliğin nasıl geçersiz kılınabileceği hakkında. Bununla birlikte, aslında onu uygulamaya geçirmek ve belirli eğitilmiş verileri geçersiz kılmak için combine_tessdata
'u çalıştırmam gerekiyor. Ancak
, ben şu olsun komutu çalıştırmayı denediğinizde: Ben kaynağından tesseract
yüklemiş
-bash: combine_tessdata: command not found
ve ben bunun neden olduğunu anlamak gibi olamaz. Bunu nasıl gidereceğinizle ilgili herhangi bir fikir var mı?
Şimdiden teşekkürler!
Tamamen mantıklı. Ancak, şu anda karşılaştığım sorun, bu kütüphaneleri bir Mac OSX'e nasıl yüklerim? libicu-dev libpango1.0-dev libcairo2-dev ' –