2012-12-10 10 views
5

Bir pdf içeriğini bash'dan çıkarmak için herhangi bir yol var mı? (Ne yazık ki "1010.3423.pdf" gibi etiketlere sahip olan büyük bir akademik makale klasörüne sahibim. Daha mantıklı bir isme daha yazmak için bash komut dosyası yazmak istiyorum. Bu da ilk birkaç satırda googling yapıyor.)Bir pdf içeriğini bash'dan çıkarmak için herhangi bir yol var mı?

+0

[kopyalanmış metin içeriğinin PDF'den nasıl çıkarılacağı] olası bir kopyası (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –

cevap

3

pdftotext, pdf dosyasındaki başlıkları ve yazarları almanıza yardımcı olabilir. Bunu daha sonra google'a kullanabilir veya kendiniz bir dosya adı oluşturabilirsiniz.

1

pdf2xml size daha ayrıntılı bilgi alacaktır, geçen sene böyle bir kullanım için aradım ve hepsinden önemlisi, en iyi pdf2xml olduğunu düşünüyorum.

İlgili konular