2010-07-13 14 views
7

Pdf verilerini kendi dosya özelliklerine dönüştürmek istiyorum. Bu yüzden, pls, java veya .net kullanarak PDF ayrıştırma için doğru API'yi seçmemde bana yardımcı oluyor. Ayrıştırma, PDF sayfalarından her bir bileşeni (eleman) çıkarmalıdır.PDF'de PDF Ayrıştırıcı API'si

cevap

2

Ne istediğinizi yapan IText adlı bir kitaplık var. Oradaki 1 numaralı ürün ve birada olduğu gibi bedava.

Daha önce IText ile çalıştım, içeriği PDF'lerden ayıkladım ve süper otomatik olmadığında, her şeye ulaşmanızı sağlar.

Başka bir deyişle tavsiye edilir.

+2

@Naimur, AGPL programında lisans uyumluluğunu kontrol etmek isteyebilirsiniz. –

+1

Buna ek olarak, formatı anlamak için PDF Referansı gerekli olacaktır. Burada bulabilirsiniz (ISO ücretleri, sayfanın sonunda ücretsiz linkler): http://www.adobe.com/devnet/pdf/pdf_reference.html – Stroboskop

+0

Çok teşekkürler carl .. Aslında sadece iText kullanmaya başladım. okunamayan formatta (bazı karmaşık pdf yapıları) olan metni nasıl alacağınızı bilmek istiyorum. Ayrıca taranabilir form veya önceden basılı form veya başka bir şey olup olmadığını pdf formu türünü almam gerekiyor .. Şimdiden teşekkürler. – Naimur

0

PDF dosyasında öğeler yoktur. Bu sayfaları üreten bir Pdfobjects kümesidir.