C# içindeki metni pdf veya word dosyalarından nasıl çıkarabilirim (kalın, resimleri ve diğer zengin metin formatlama ortamını)? Word formatında açık değil ve sürüm sürüm değişir beri tek güvenilir yolu, http://www.codeproject.com/KB/files/PDF_to_TEXT.aspxPdf ve word dosyalarından metin ayıklama
cevap
Dizin oluşturma hizmeti için tasarlanmış/kullanılmış filtreleri kullanabilirsiniz. Düz belgeyi bir belgenin içinde arama yapmak için yararlı olan çeşitli belgelerden çıkarmak için tasarlandılar. Office dosyaları, PDF'ler, HTML vb. Için, temel olarak filtreli herhangi bir dosya türünü kullanabilirsiniz. Tek dezavantajı, bu filtreleri sunucuya yüklemeniz gerektiğidir, bu nedenle sunucuya doğrudan erişiminiz yoksa bu mümkün olmayabilir. Bazı filtreler Windows ile önceden yüklenir, ancak bazıları PDF gibi, kendinizi yüklemeniz gerekir. Bir C# uygulaması için bu makaleye bakın: PDF dosyalarından metin ayıklamak için Using IFilter in C#
PDF için, aynı zamanda bu bir kontrol TallPDF
bakmak etmedi.
Kullanım Word nesne modelini:
Ama nasıl olsa? Bu kod örneği olmayan işe yaramaz bir cevaptır. – KyleM
PDF:
Çeşitli seçenekleriniz var.
pdftotext:
İndir XPDF utilities. .zip dosyasında çeşitli komut satırı yardımcı programları vardır. Biri pdftotext(.exe)
. Tüm metin içeriğini iyi huylu bir PDF dosyasından çıkarabilir. Komut satırı parametreleri hakkında bir şeyler öğrenmek için pdftotext -help
yazın.
Ghostscript:
latest version of Ghostscript (v.8.71) yükleyin. Ghostscript bir PostScript ve PDF yorumlayıcısıdır. Siz de bir PDF metin ayıklamak için kullanabilirsiniz:
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
çıktısı verir metin Stdout'a 3-7 input.pdf
sayfalarında içeriyordu. Komutu > /path/to/output.txt
ekleyerek bu dosyayı bir dosyaya yönlendirebilirsiniz. Eğer -dSIMPLE
parametreyi atlarsanız,
(. PostScript yardımcı program ps2ascii.ps
sizin Ghostscript lib
alt dizininde mevcut olduğundan emin olmak için kontrol edin) Metin çıkış satır sonları ve kelime aralıklarını tahmin edilecektir. Ayrıntılar için, ps2ascii.ps
dosyasındaki yorumlara bakın. Hatta ek metin biçimlendirme bilgisi almak için bu paramın -dCOMPLEX
ile değiştirebilirsiniz.
XPDF, – chrisfs
PDFBox'a bakmak isteyebilirsiniz. Burada, C# 'de nasıl kullanılacağını gösteren diğer bir dizi yararlı yorum içeren bir Kod Projesi sayfasına bir bağlantı var.
Word'de gelince Word nesne modelini kullanarak öneri muhtemelen en doğrusudur.Kitaplık extract plain text and text with formatting olabilir. Ayrıca, collection of words veya sınırlayıcı dikdörtgenlere sahip karakterler kütüphanenin API'sı kullanılarak alınabilir.
Yasal Uyarı: Kütüphane satıcısı için çalışıyorum.
- 1. HTML'yi kopyalanan PDF dosyalarından ölçekleme
- 2. PDF dosyalarından başlıklar ayıklanıyor mu?
- 3. Word Belgesini PDF Kullanarak PDF'ye Dönüştürme
- 4. .net kullanarak Pdf öğelerini ayıklama
- 5. PDF olarak gömülü Word Doc kaydet
- 6. Word Belgelerini ve PDF'leri Sphinx ile İndeksleme
- 7. Yazdırılamayan "gremlin" karakterlerini metin dosyalarından çıkarma
- 8. metin-madeni PDF dosyaları?
- 9. python: sıkıştırılmış metin dosyalarından satırları oku
- 10. Word-VBA'da bir yer işaretine nasıl geçilir ve metin eklenir?
- 11. Powerbuilder Datawindow metin kutusu, word-wrap yazmıyor
- 12. pdf ve kelime dönüştürebilirsiniz
- 13. iOS'ta PDF metin seçimi iOS
- 14. JBoss Richfaces kullanarak bir PDF'den metin ayıklama
- 15. word-word eşzamanlılık matrisi
- 16. Bir div etiketinden metin ayıklama
- 17. Ben pdf oluşturmak için WP PDF Generator wordpress eklentisi kullanıldı ama pdf üstbilgi ve altbilgi kaldırmak istiyorum, bunu nasıl yapabilirim?
- 18. Pdf kağıtlarına metin olmayan yorumlar ekleme
- 19. İkili eki ve metin dönüşümü ayıklama MIME posta ayrıştırma
- 20. PDF dosyası metin biçimine nasıl dönüştürülür iTextSharp
- 21. Postgres'deki dizelerden Word frekansları?
- 22. Apple iPad ve PDF desteği
- 23. p # Word ile pdf dosyalarını ayrıştırmak için Asp.Net ile PDFBox'ı nasıl kullanabilirim?
- 24. Doküman çeşitliliği ile hadoop ile aranabilir arşiv için en iyi uygulamalar (pdf, ppt, MS word, düz metin vb.)
- 25. PHPmailer ve pdf eki
- 26. Word Belgeleri'ne belirli bir konumda nasıl metin eklenir?
- 27. ayıklama ve $ _POST
- 28. UIWebView, Word office belgesi ve sayfa numaralandırma
- 29. PDF Kitaplıktaki PDF dosyalarını görüntüleyebilmek için kütüphane
- 30. pdf dosya metni okuma ve arama
bulduğum her şeyden daha iyi çalışıyor Bu tam olarak neye ihtiyacım var. Teşekkürler! –