2012-03-30 13 views
16

Geçtiğimiz yıl, bazı PDF dosyalarında ham metni almak için PDFBox kullanarak bir uygulama yaptım ve şimdi bu uygulamayı C++ uygulamasına yüklemem gerekiyor.Java için PDFBox gibi bir PDF dosyasından metin ayıklamak için bir C++ kitaplığı var mı?

İhtiyacım olanı elde etmenin en iyi C++ alternatifi olduğunu öğrenmek istedim.

Ben yardımcı durumda bir örnek vereyim

:

dosyaların çoğu aşağıdaki gibi görünecektir: bu dosyayı kullanarak, PDFBox ile http://www.jumbala.net/backup/league.pdf

, her satır 2. sayfada okuyup sayfa 3 çoğunu olur Bir satırın tüm verilerini, şimdi olduğu gibi bir ızgarada tutmak yerine bir boşlukla ayırarak çıktılar. göründükleri sırayla ufak değişiklikler vardır beri böyle

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615 

falan ama sürece bu umurumda değil:

Yani sayfa 2'de ilk alakalı hat şu şekilde görünecektir Benzer çizgiler sadece onları ayrıştırdığımdan ve ihtiyacım olan değerleri farklı değişkenlere koyduğumdan çıktılar.

Tüm bunları bildiğimden, benzer sonuçları almak için C++ programında kullanabileceğim bir kütüphane var mı?

Düzenleme:

http://www.jumbala.net/backup/league.pdf.txt

parça aslında gerekir:http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file de sacredFaith en linke bakıyor ve denedikten sonra, ben önce bahsettiğim örnek dosyası için böyle gibi garip bir çıkış alıyorum başlangıçta tuhaf karakterler var. Adobe Acrobat Reader X Kullanılması ve Kaydet seçeneğini kullanarak ... Metin (erişilebilir), ben şu sonucu alırsınız: Ben PDFBox kullanarak Java olsun ve ben çıktı olarak almak istediğini neyi yaklaşık

http://www.jumbala.net/backup/league_good.pdf.txt

C++ 'da.

+0

Belki bu yardımcı olabilir http://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos

+0

@grifos Ona baktım ve daha sonra biraz daha ayrıntılı olarak bakabilirim, Ancak, tüm PDF özellikleri belgesini okumak zorunda kalmamayı tercih ettiğimden, önceden hazırlanmış bir kütüphaneyi tercih ediyorum. Gönderdiğiniz mükemmel bağlantı, daha sonra kullanışlı olabilir, teşekkürler! –

+0

Linkte ayrıca pdf ayrıştırmak ve bilgi ayıklamak için izin veren bir C++ kitaplığı PoDoFo hakkında takl. – grifos

cevap

10

Xpdf bir PDF dosyasından düz metin ayıklamak için araçlar içeren bir C++ uygulama/kütüphanesidir.

+5

Xpdf'nin önceden derlenmiş sürümünü indirdim ve komut satırındaki .exe mükemmel çalışıyor, istediğim çıktıyı elde ediyorum (ve -outout seçeneğini kullanırsam PDFBox'u kullanmam daha iyi). Bir sorum var, ama ... .exe yerine koddaki yöntemleri nasıl arayacağımı görebileceğim bir yer var mı? Kendi başıma bakacağım, ama kütüphaneye aşina olduğun için bana nereden bakacağını söylesen daha iyi olurdu. Çok teşekkürler! –

+0

XPDF ekibi, kütüphanelerinin ticari sürümlerini http://www.glyphandcog.com/XpdfText.html adresinde isteğe bağlı destekle birlikte sağlar. –

2

ben aşağıdakileri hiç kullanmadıysanız, ancak bazı Googling sonra bunu buldum:

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file

+0

Ona bir bakacağım, teşekkürler! İstediğim şekilde çalışabilirsem cevabını kabul edilir olarak kabul ederim! –

+0

Ne yazık ki, sadece denedim ve bu benim istediğim şekilde çalışmaz (metnin bazı kısımları iyi, ama belgenin çoğu garip sembollerden oluşuyor) –

+1

Bu adam için üzgünüm! Charles için aradığınız şeyi bulduğunuz gibi görünüyor! – sacredfaith

3

Aradığın şey şu: PoDoFo, ayrıştırmak/okumak/değiştirmek veya pdf dosyaları oluşturmak için C++ kütüphanesidir. Kütüphane çapraz platformdur.

İlgili konular