pdf dosyalarından metin ayıklamak için hem pyPdf hem de pdfMiner ile denemeler yaptım. Sadece pdfMiner'ın başarılı bir şekilde çıkabileceği bazı düşmanca pdfs'leri var. Tüm dosya için metin ayıklamak için here kodunu kullanıyorum. Bununla birlikte, pdf'de getPage(i).extractText()
işlevselliği gibi sayfa başına metin ayıklamak istiyorum. PdfMiner kullanarak sayfa başına nasıl metin çıkaracağını bilen var mı?Python pdfMiner ile sayfa başına metin ayıkla?
5
A
cevap
6
for pageNumber, page in enumerate(PDFDocument.get_pages()):
if pageNumber == 42:
#do something with the page
Oldukça iyi bir makale var here.
İlgili konular
- 1. asp.net ValidateRequest = sayfa başına metin kutusu başına yanlış mı?
- 2. Metin dosyasından satırları ayıkla
- 3. KML BatchGeo Dosyası'ndan Koordinatlar Ayıkla Python ile
- 4. jqgrid - sayfa başına ürün
- 5. Python BeautifulSoup Özel URL'leri ayıkla
- 6. dizin başına python başına dosya basma sayısı
- 7. ImageMagick kullanarak metin olarak EXIF verilerini ayıkla
- 8. Sayfa başına öğe sayısını <% = will_paginate%>
- 9. Ruby regex: tırnak işaretleri arasında metin ayıkla
- 10. Metin dosyasından ilk ve son sütunu ayıkla
- 11. JavaFX 8 Sayfa başına dön Sayfa başı sayılar
- 12. Neden işlem başına bir sayfa tablosu
- 13. Python kullanarak json stok dosyasından veri ayıkla
- 14. İmleç, bir metin alanının başına gider
- 15. Python + Django sayfa yönlendirmesi
- 16. Tümü Tekil Satırları Ayıkla
- 17. , mysql verilerini getiriyor ve json'ları sayfa başına sınırlı kayıtlarla kodlayabiliyor
- 18. Ekstra tf-idf vektörleri lucene ile ayıkla
- 19. Dize ile Son Sözlüğü Ayıkla Özgü Sözlüğü
- 20. Imacro - Javascript Sayfa Başına Doğru Kaydırmak İçin Koşulsal
- 21. Drupal'da dil başına farklı bir ana sayfa nasıl ayarlayabilirim?
- 22. Sayfa başına birden çok slayt olması için pdf dosyasını değiştirin
- 23. Sayfa başına komut dosyalarını ve stilleri gruplamak mümkün mü
- 24. Django-sayfalama sayfa başına birden fazla sayfalama yapabilir mi?
- 25. Çoklu sayfa başına görünümü modelleri ve yükleme şablonları uyumsuz
- 26. Python: Bir satır dosyasında, satır başına ngramların sayısını denetleme
- 27. Klavye düzenlerini ayıklar penceresinden ayıkla
- 28. Argüman parametresinden argüman parametrelerini ayıkla
- 29. pdfminer python kodunu kullanarak, bir klasörden txt biçimine çoklu pdf dosyalarını dönüştürme.
- 30. Python metin dosyasında Python metin dosyasında virgüllerle değiştirilmiyor
Birisi bu konuda ayrıntılı olabilir mi? Hiç dokümantasyon olmadığı için kafamı pdfminer'a sokmada önemli bir sorun yaşıyorum. Bu kodun pdfminer'ın hangi sürümü için çalıştığı – Jazcash
mu? –
Bu, geçerli * pdfminer * (yazım 20140328 yazma zamanı) ile bozulur. –