2012-09-26 23 views
5

pdf dosyalarından metin ayıklamak için hem pyPdf hem de pdfMiner ile denemeler yaptım. Sadece pdfMiner'ın başarılı bir şekilde çıkabileceği bazı düşmanca pdfs'leri var. Tüm dosya için metin ayıklamak için here kodunu kullanıyorum. Bununla birlikte, pdf'de getPage(i).extractText() işlevselliği gibi sayfa başına metin ayıklamak istiyorum. PdfMiner kullanarak sayfa başına nasıl metin çıkaracağını bilen var mı?Python pdfMiner ile sayfa başına metin ayıkla?

cevap

6
for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page 

Oldukça iyi bir makale var here.

+0

Birisi bu konuda ayrıntılı olabilir mi? Hiç dokümantasyon olmadığı için kafamı pdfminer'a sokmada önemli bir sorun yaşıyorum. Bu kodun pdfminer'ın hangi sürümü için çalıştığı – Jazcash

+0

mu? –

+0

Bu, geçerli * pdfminer * (yazım 20140328 yazma zamanı) ile bozulur. –

İlgili konular