Geçtiğimiz yıl, bazı PDF dosyalarında ham metni almak için PDFBox kullanarak bir uygulama yaptım ve şimdi bu uygulamayı C++ uygulamasına yüklemem gerekiyor.Java için PDFBox gibi bir PDF dosyasından metin ayıklamak için bir C++ kitaplığı var mı?
İhtiyacım olanı elde etmenin en iyi C++ alternatifi olduğunu öğrenmek istedim.
Ben yardımcı durumda bir örnek vereyim:
dosyaların çoğu aşağıdaki gibi görünecektir: bu dosyayı kullanarak, PDFBox ile http://www.jumbala.net/backup/league.pdf
, her satır 2. sayfada okuyup sayfa 3 çoğunu olur Bir satırın tüm verilerini, şimdi olduğu gibi bir ızgarada tutmak yerine bir boşlukla ayırarak çıktılar. göründükleri sırayla ufak değişiklikler vardır beri böyle
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
falan ama sürece bu umurumda değil:
Yani sayfa 2'de ilk alakalı hat şu şekilde görünecektir Benzer çizgiler sadece onları ayrıştırdığımdan ve ihtiyacım olan değerleri farklı değişkenlere koyduğumdan çıktılar.
Tüm bunları bildiğimden, benzer sonuçları almak için C++ programında kullanabileceğim bir kütüphane var mı?
Düzenleme:
http://www.jumbala.net/backup/league.pdf.txt
parça aslında gerekir:http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file de sacredFaith en linke bakıyor ve denedikten sonra, ben önce bahsettiğim örnek dosyası için böyle gibi garip bir çıkış alıyorum başlangıçta tuhaf karakterler var. Adobe Acrobat Reader X Kullanılması ve Kaydet seçeneğini kullanarak ... Metin (erişilebilir), ben şu sonucu alırsınız: Ben PDFBox kullanarak Java olsun ve ben çıktı olarak almak istediğini neyi yaklaşık
http://www.jumbala.net/backup/league_good.pdf.txt
C++ 'da.
Belki bu yardımcı olabilir http://stackoverflow.com/questions/3784554/creating-a-pdf-reader-in-c – grifos
@grifos Ona baktım ve daha sonra biraz daha ayrıntılı olarak bakabilirim, Ancak, tüm PDF özellikleri belgesini okumak zorunda kalmamayı tercih ettiğimden, önceden hazırlanmış bir kütüphaneyi tercih ediyorum. Gönderdiğiniz mükemmel bağlantı, daha sonra kullanışlı olabilir, teşekkürler! –
Linkte ayrıca pdf ayrıştırmak ve bilgi ayıklamak için izin veren bir C++ kitaplığı PoDoFo hakkında takl. – grifos