Ben bu eski bir soru olduğunu biliyorum ama birisi
"Oldukça bariz" tanıtım ihtiyacı olabilir:
PDF dosyaları grafik akışı ve metin (örneğin hatlar için) nesne bulunmaktadır. PDF oluşturulduğunda, insan gözü, aralarında çizgiler ve metin nedeniyle tabloların olduğunu anlar.
1. hatları (umarım sadece dikey ve yatay çizgiler) okumak;: PDF okuyucu (İTextSharp) başlayarak
(benim) çözümü
yapmanız gerekenler
2. satırlara katıl (bir tablonun bir satırı, örneğin hücre başına bir tane olabilir);
3. Tabloların nerede olduğunu anlamak (bazen ihtiyaçlarınıza göre bazı hipotezler yapmak);
4.isteğe bağlı olarak tabloların dışındaki metni (tüm metni saklamak için daha iyi) bulun ve paragraflara ekleyin; masanın
hücrelerinin iç
5. Metin ekle Zaten burada bir şey https://github.com/bubibubi/ExtractTablesFromPdf
O iTextSharp GPL sürümünü kullanır bulabilirsiniz (benim pdf'lerden için çalışan) den başlamak yazılı bir şey gerekiyorsa.
Bu, Stackoverflow üzerinde daha uygun olabilir. –
PDF dosyalarının açık bir metin olduğunu biliyorsunuz ve bu bilgiyi kendi çözümünüze ayırabilirsiniz? – CrazyDart