Python'da bu iletinin altındaki kodla birlikte bir pdf'deki metni okumak için pdfminer kullanıyorum. Ben buna (veya "okuma korumalı") sabitlenir çıkıyor Acrobat Pro ile bu pdf açtığınızda File "/usr/l
Bir pdf içindeki metni tespit etmek için regex'i kullanabilir miyim (pdfquery veya başka bir araç kullanarak)? ben bunu yapabiliriz biliyorum: pdf = pdfquery.PDFQuery("tests/samples/IRS_1040A.pdf")
p
Bir belgede hangi sayfaların bir python sözlüğünde/listede saklandığım belirli bir sözcükte bulunduğunu bulmak için zarif bir çözüm arıyorum. İlk olarak .docx biçimini bir giriş olarak kabul ettim ve
Pdf dosyalarından metin ayıklamak ve daha sonra başvurular tanımlamaya çalışıyorum. Ben onun iyi çalışan şifrelenmemiş dosyaları ile pdfminer 20140328. kullanıyorum, ama şimdi ben almak üzere bir dosy