2009-03-10 13 views

cevap

2

Bu karmaşık bir istektir, çünkü bu PDF'nin kendisine (ve nasıl oluşturulduğuna) bağlı olup olmadığına bağlıdır. İlk deneme olarak, HTML dönüştürücüsüne

http://www.adobe.com/products/acrobat/access_onlinetools.html

kerpiç kendi çevrimiçi PDF kullanmak ve daha sonra düzenli

http://tidy.sourceforge.net/

gibi bir şeyle aslında sonra HTML'ini düzeltmeye çalışacağını söyledi

PDF'ler görüntü taraması yaparak oluşturuyorlarsa, bunlarla ilişkili hiçbir metin olmayabilir - o zaman yapabileceğiniz en iyi şey ya sayfaları kesip JPG belgelerine dönüştürmek ya da bir çeşit OCR yazılımı kullanmaktır. PDF kendisi.

PDF'lerin el ile oluşturulmuş ve bu nedenle metin bilgisi olsa bile, dönüştürme işleminde elle düzeltilmesi gereken lot hata olabileceği konusunda sizi uyarıyorum. Bu süreci temel olarak şirket yıllık raporları/etc için yapan bir ürün üzerinde çalışıyorum ve sonuç olarak, sayfaları JPG/GIF görüntülerine ve HTML'lere ayırmaya karar verdik - denediğimiz diğer süreçler de çok fazla hata getirdi ve çok emek yoğundu. hepsini düzeltmek için.

İlgili konular