PDF'yi metne dönüştürmek için PDFminer'dan pdf2text kullandım. Ne yazık ki özel karakterler içeriyor. benim konsolaPython: Sorunlarımı veren özel karakterler (PDFminer'den)
>>>a=pdf_to_text("ap.pdf")
heres
bunun bir örneği, biraz kesik
>>>a[5000:5500]
'f one architect. Decades ...... but to re\xef\xac\x82ect\none set of design ideas, than to have one that contains many\ngood but independent and uncoordinated ideas.\n1 Joshua Bloch, \xe2\x80\x9cHow to Design a Good API and Why It Matters\xe2\x80\x9d, G......=-3733'
Ben o
>>>a[5000:5500].encode('utf-8')
Traceback (most recent call last):
File "<interactive input>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 237: ordinal not in range(128)
Ben biraz etrafında arandı kodlamak gerektiğini anladı ve çıktı gösterelim onları denedim, özellikle Replace special characters in python. Giriş PDFminer'den geliyor, bu yüzden bunu kontrol etmek için sert (AFAIK). Bu çıktıdan uygun düz metin yapmanın yolu nedir?
Neyi yanlış yapıyorum?
-A hızlı düzeltme: ASCII için PDFminer en codec değiştirmek ama codec'i değişen cevaplayan için kalıcı bir solution--
--Abandoned hızlı düzeltme değil kaldırır bilgi -
Maxim http://en.wikipedia.org/wiki/Windows-1251 tarafından belirtildiği gibi-AS relavent konu - ASCII olmayan metin str
nesneler saklandığı zaman
teşekkürler! Python'da yeni başlayanlar arasında Pdfminer'ın nasıl kullanıldığını bir demo kodu yayınlayabilirdiniz, böylece bu hatalar görünmüyor mu? Teşekkürler –