İndirilen makaleleri otomatik olarak başlıklarıyla yeniden adlandırmak için bir komut dosyası yazmak istiyorum. Kullanabileceğim kütüphane veya püf noktaları olup olmadığını merak ediyorum. PDF'lerin hepsi TeX tarafından üretilmiştir ve bazı 'resmi' yapılara sahip olmalıdır.PDF dosyalarından başlıklar ayıklanıyor mu?
13
A
cevap
13
pyPdf ve this example'u kullanmayı deneyebilirsiniz. örneğin
:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
Muhtemelen perl ile başlayacağım (her zaman ulaştığım ilk şey olduğu için). several modules for handling PDFs vardır. Tutarlı bir yapınız varsa, başlıkları zapt etmek için regex'i kullanabilirsiniz.
2
Sen, bunun yerine arXiv kimliği çıkarılamadı olabilir Jython
0
bütün bu kağıtlar arXiv gelmektedir varsayarsak ile iText kullanmayı deneyebilirsiniz (aradığım olduğunu tahmin ediyorum PDF'nin metnindeki "arXiv:" ifadesi, sürekli olarak ilk isabet olarak kimliği gösterir. Eğer arXiv referans numarasına sahip (ve bir pip install arxiv
yapmış) Bir kere
, size gelen PDF'leri başlığını alabilirim
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
İlgili konular
- 1. HTML'yi kopyalanan PDF dosyalarından ölçekleme
- 2. Pdf ve word dosyalarından metin ayıklama
- 3. ayıklanıyor nesneler
- 4. Çıktıktan sonra bir hata ayıklanıyor mu? (Ana sonra döndü)
- 5. MS Word Tablo Hücresi görüntü olarak ayıklanıyor mu?
- 6. Alt başlıklar içeren çoklu başlıklar (suptitle)
- 7. Başlıklar Sanity
- 8. Scala json ayıklanıyor
- 9. Belirtilen dizine jar ayıklanıyor
- 10. Pexpect'ten stderr ayıklanıyor
- 11. csproj dosyalarından Kaynaklar listesini okuma
- 12. ayıklanıyor içerik <![CDATA []]>
- 13. Öznitelik değeri beautifulsoup ile ayıklanıyor
- 14. çıkış ayrıştırmasını ağacından ayıklanıyor Ağacı
- 15. Django kurabiye ve başlıklar
- 16. soap4r özel başlıklar
- 17. SQL Server'da dizinlerdeki başlıklar
- 18. Monitor .NET Başlıklar
- 19. UIPickerView sütun Başlıklar
- 20. Golang - Yapılardaki başlıklar
- 21. Bir şablonun içinde oluşturulan başlıklar
- 22. Numaralı Başlıklar, Org-Mode, Emacs
- 23. Google'da oynatma gibi başlıklar oynat
- 24. Bir yanıttan başlıklar alınırken voleybol
- 25. Başlıklar Cordova InAppBrowser'da nasıl ayarlanır?
- 26. Verileri .msg dosyalarından excel'e aktarma
- 27. Python - Belirli uzantıların dosyalarından geçiş
- 28. NHibernate yapılandırma dosyalarından Veritabanını Oluştur
- 29. HDFS dosyalarından okunan Pydoop ördekler
- 30. Çoğu Okuma Başlığını BS4 ile Ayıklanıyor
kullanarak başlık alabilirim? Bu bilgilerin PDFs belge özelliklerinden veya PDF içeriğinden alınması mı gerekiyor yoksa bu bilgiyi başka bir kaynaktan mı çıkarıyorsunuz? – Rowan
[Araştırma ödevlerinin PDF'lerinden bilgi çıkarma] 'nın olası kopyası (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123