arası boşluklar var, eğer pdf sayfasının sayfa nesnesini pyPdf ve extractText() ile yaparsam, satırlar birlikte birleştirilir. Örneğin, sayfanın 1. satırı "merhaba" yazıyorsa ve satır 2 "dünya" diyorsa, extractText() 'den döndürülen sonuç metni "merhaba dünya" yerine "helloworld" dür. Bunu nasıl düzelteceğini bilen var mı, yoksa etrafta çalışma önerileriniz var mı? Bu pdf metninde metin madenciliği yapıyorum ve çizgiler arasında boşluklar olmaması nedeniyle satırlar arasında boşluk olması için gerçekten ihtiyacım var.python ve pyPdf - sayfalardan metin ayıklamak için, şu anda satırlar arasında
cevap
Bu pdf ayrıştırma ile ilgili yaygın bir sorundur. Bazı durumlarda düzeltmek zorunda kalacağınız izleri de bekleyebilirsiniz. Burada açıklayacağım projelerimden biriyle ilgili bir çözüm buldum:
XML'den XML ayıklamak için pdfminer kullandım ve XML'de birleştirilmiş sözcükler buldum. Ben HTML olarak aynı PDF çıkarılan ve HTML aşağıdaki regex hatları ile tarif edilebilir:
<span style="position:absolute; writing-mode:lr-tb; left:[0-9]+px; top:([0-9]+)px; font-size:[0-9]+px;">([^<]*)</span>
süreleri kesinlikle yerleştirilmiş ve bir satır sonu oldu olmadığını belirlemek için kullanabileceğiniz bir üst tarza sahiptir. Bir satır sonu olursa ve son satırdaki son sözcük sondaki bir çizgiye sahip değilse, son satırdaki son sözcüğü ve geçerli satırdaki ilk sözcüğü ayırabilirsiniz. Ayrıntılarda zor olabilir, ancak hemen hemen tüm metin ayrıştırma hatalarını düzeltebilirsiniz.
Ayrıca, metin üzerinde enchant gibi bir sözlük kitaplığı çalıştırmak, hataları bulmak ve sözlük tarafından önerilen düzeltme, hata sözcüğü gibi bir yerle ilgili bir boşluk ile, hata sözcüğü bir ayrıştırma hatası olması muhtemeldir ve sözlükler öneri ile sabitlenebilir.
PDF'yi ayrıştırma, daha iyi bir kaynak bulursanız kullanın.
- 1. İki dizge arasında ayıklamak için regex (değişkenler)
- 2. Şu anda sınır yarıçapı için
- 3. iyi rehber Şu anda Vikikitap'a arasında XML öğreniyorum XML
- 4. Şu anda yüklü olan derlemeler arasında nasıl geçiyorsunuz?
- 5. okuma/pyPdf
- 6. Python pdfMiner ile sayfa başına metin ayıkla?
- 7. Python hata pygame Şu anda python 2.7 kullanıyorum
- 8. Şu anda "Get_Item" MethodInfo
- 9. Şu anda 2 görüntü konumları ve sahip
- 10. ggplot2: Şu anda efsane
- 11. Nasıl Şu anda
- 12. Şu anda Ayrıcalıkları Yükseltmek için Desteklenen Yol
- 13. bir Microsoft.IIs.PowerShell.Framework.ConfigurationElement nesnesi metin ayıklamak için nasıl
- 14. Java düzenli ifade şu anda dize biçiminde içerikli bir Token ayıklamak istiyorum iki dize
- 15. Casus şu anda bağlı hiçbir konsol yok
- 16. ElementNotVisibleException: İleti: Öğe şu anda görünmüyor ... selenium (python)
- 17. Şu anda 2 şubesi var
- 18. UIToolbar öğeler şu anda gösterilmiyor
- 19. Şu anda normal tarayıcı davranışını
- 20. Şu anda Java için en iyi görüntü işleme kütüphaneleri nelerdir?
- 21. Kuru çalışma yöntemi? Şu anda
- 22. nasıl program şu anda benim önceki soruya
- 23. Ben bir parola gücü test cihazı yapıyorum ve şu anda python
- 24. IPC arasında Python ve C#
- 25. Metin dosyasından satırları satırdan ayıklamak nasıl döngüde
- 26. Satırlar ve iki grup arasında ortalama saat farkının hesaplanması
- 27. pyPdf hata geçersiz bağımsız değişken
- 28. Satırlar arasında yeniden boyutlandırma ve yeniden boyutlandırma sayfa html
- 29. PHP, MySQL - etkilenen satırlar ve etkilenen satırlar arasında ayrım yapabiliyor musunuz?
- 30. Web2py: ben bazı (şu anda boş) metin alanları güncelleyen bir SQLFORM oluşturmak için web2py kullanıyorum
Bu SO sayfasına bir göz atmak isteyebilirsiniz: http://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text Orada birkaç iyi öneri var! – avelldiroll