Python için bir PDF açmamı ve belirli kelimeler için metni aramamı sağlayan bir paket/kitaplık var mı?metin-madeni PDF dosyaları?
5
A
cevap
11
bunun üzerine pdf metin ve işi ayıklamak için extractText() yöntemi kullanabilirsiniz PyPdf2 kullanma.
Güncelleme: Değiştirilen metin kafaları için @Aditya Kumar için, PyPdf2 sayesinde yukarı başvurmak için.
4
Sana tek adımda bunu yapabilirsiniz sanmıyorum, ama kesinlikle pdfminer bir pdf dışına metin alabilirsiniz. Ardından, bu kurtarılan verilere herhangi bir metin araması uygulayabilirsiniz.
İlgili konular
- 1. Asp.net mvc PDF dosyaları oluşturma
- 2. PDF Kitaplıktaki PDF dosyalarını görüntüleyebilmek için kütüphane
- 3. PDF dosyaları için bir test paketi var mı?
- 4. PDF belgesini (* .pdf) Metne dökmek?
- 5. angularjs pdf görüntüleyemez pdf görüntüleyici
- 6. Imagick PDF dosya okuyamadı PDF
- 7. Cordova jsPDF - PDF created, pdf dosyasını pdf dosyasında bulamıyorum
- 8. HTML gömülü PDF iframe
- 9. Bir pdf bcmap dosyası nedir?
- 10. PDF dosyasını iText ile PDF dosyasına gömme
- 11. Pdf dosyasını PDF Reader'daki ham klasörden açın.
- 12. Fonksiyonel PDF Testi (PDF İçeriğinin Testini Otomatikleştirin)
- 13. PDF, Laravel 5'te BLOB'dan geri dönüştürülen PDF okuyamıyorum?
- 14. PDF dönüştürme
- 15. SQL Server PDF tam metin arama Ben tam metin arama Ben FileStream aracılığıyla benim SQL Db içine yükleme am PDF dosyaları üzerinde çalışmak için alınamıyor FileStream PDF Dosyası
- 16. getBlob() dosyaları pdf'ye dönüştürüyor
- 17. Google dokümanlar pdf dosyası yükleyin
- 18. PDF Miner PDFEncryptionError
- 19. Codeigniter Force dosyaları karşıdan yükle
- 20. dosyaları
- 21. WebObjects'de çok sayfalı formlardan PDF oluşturma
- 22. Dosyaları ASP.NET .ashx modüllerini kullanarak indirme
- 23. PDF dosyasını yerleşik PDF görüntüleyici kullanmadan bir web sayfasına yerleştirin
- 24. PDF belgesini PDF belgesini kullanarak ReportLab (Python) kullanarak
- 25. Excel'i PDF'ye PDF kullanarak dönüştür (PDF olarak kaydet)
- 26. Seçilen çalışma sayfalarını python'a pdf olarak pdf olarak yazdırın
- 27. javascript kütüphanesi pdf epi vermek için web sitesi pdf
- 28. PDF için tarayıcınıza PDF dosyası oluşturulamıyor Görüntülenecek Ruby için Rails
- 29. Ben pdf içeriği görüntülemek için kuvars kullanıyorum pdf dosyası
- 30. PDF'deki resmi başka bir Resim pdf kutusuyla değiştir Pdf kutusu
@cartman: PyPdf'in satırlar arasında boşluk bırakmadığı konusunda nasıl çalışacağınız hakkında bir fikriniz var mı? Örneğin, pdf'de bir satır 'merhaba' demişse ve bir sonraki satır 'dünya' demişse, çıkardığım metin 'merhaba dünya' yerine 'merhaba dünyası' yerine, herhangi bir metin madenciliğini ... – sepiroth
doğru hatırlayın, PyPdf bazı PDF'lerde bazı yeni satırları '\ x00' olarak okur. PyPdf için – PhilS
+1: Bu bir _very_ kullanışlı modül, 2.6 için biraz modası geçmiş olsa bile (kaynaklar zaten kullanılabilir, ancak birkaç uyarlaması var). – RedGlyph