2010-09-06 25 views

cevap

6

Dizin oluşturma hizmeti için tasarlanmış/kullanılmış filtreleri kullanabilirsiniz. Düz belgeyi bir belgenin içinde arama yapmak için yararlı olan çeşitli belgelerden çıkarmak için tasarlandılar. Office dosyaları, PDF'ler, HTML vb. Için, temel olarak filtreli herhangi bir dosya türünü kullanabilirsiniz. Tek dezavantajı, bu filtreleri sunucuya yüklemeniz gerektiğidir, bu nedenle sunucuya doğrudan erişiminiz yoksa bu mümkün olmayabilir. Bazı filtreler Windows ile önceden yüklenir, ancak bazıları PDF gibi, kendinizi yüklemeniz gerekir. Bir C# uygulaması için bu makaleye bakın: PDF dosyalarından metin ayıklamak için Using IFilter in C#

+0

bulduğum her şeyden daha iyi çalışıyor Bu tam olarak neye ihtiyacım var. Teşekkürler! –

0

PDF için, aynı zamanda bu bir kontrol TallPDF

bakmak etmedi.

0

Kullanım Word nesne modelini:

+0

Ama nasıl olsa? Bu kod örneği olmayan işe yaramaz bir cevaptır. – KyleM

4

PDF:

Çeşitli seçenekleriniz var.

pdftotext:
İndir XPDF utilities. .zip dosyasında çeşitli komut satırı yardımcı programları vardır. Biri pdftotext(.exe). Tüm metin içeriğini iyi huylu bir PDF dosyasından çıkarabilir. Komut satırı parametreleri hakkında bir şeyler öğrenmek için pdftotext -help yazın.

Ghostscript:
latest version of Ghostscript (v.8.71) yükleyin. Ghostscript bir PostScript ve PDF yorumlayıcısıdır. Siz de bir PDF metin ayıklamak için kullanabilirsiniz:

gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET 

çıktısı verir metin Stdout'a 3-7 input.pdf sayfalarında içeriyordu. Komutu > /path/to/output.txt ekleyerek bu dosyayı bir dosyaya yönlendirebilirsiniz. Eğer -dSIMPLE parametreyi atlarsanız,

(. PostScript yardımcı program ps2ascii.ps sizin Ghostscript lib alt dizininde mevcut olduğundan emin olmak için kontrol edin) Metin çıkış satır sonları ve kelime aralıklarını tahmin edilecektir. Ayrıntılar için, ps2ascii.ps dosyasındaki yorumlara bakın. Hatta ek metin biçimlendirme bilgisi almak için bu paramın -dCOMPLEX ile değiştirebilirsiniz.

+0

XPDF, – chrisfs

0

PDFBox'a bakmak isteyebilirsiniz. Burada, C# 'de nasıl kullanılacağını gösteren diğer bir dizi yararlı yorum içeren bir Kod Projesi sayfasına bir bağlantı var.

http://www.codeproject.com/KB/string/pdf2text.aspx

Word'de gelince Word nesne modelini kullanarak öneri muhtemelen en doğrusudur.

İlgili konular