Word belgesine (2003) sahibim. Belgenin içeriğini ayrıştırmak için Powershell kullanıyorum. Belge, üstte birkaç satırlık metin, farklı sayıda sütun içeren bir düzine tablo ve daha sonra biraz daha metin içeriyor.Word belgesi (* .doc) içeriğini tablo vb. Ile okuyun.
- Oku belgesinde (vs gerekli nesneleri olun)
- metin
- her satırı bir tablo parçası olmayan ise alın:
aşağıda gibi bir şey olarak belgeyi okuyabilecek olmasını bekliyoruz metin ve yaz-çıktı olarak süreç başka
- bir tablosunun parçası (emriyle)
- alın tablo numarası ve sütun dayalı çıkışını ayrıştırmak
Aşağıda yazmaya başlamışlardır Powershell script umns
$objWord = New-Object -Com Word.Application
$objWord.Visible = $false
$objDocument = $objWord.Documents.Open($filename)
$paras = $objDocument.Paragraphs
foreach ($para in $paras)
{
Write-Output $para.Range.Text
}
Paragraflar istediğim buysa ben emin değilim. Amacım için daha uygun bir şey var mı? Şu anda tek alacağım bu belgenin tüm içeriği. Ne aldığımı nasıl kontrol ederim. Bir çizgi almak istediğim gibi, bir masanın bir parçası olup olmadığını belirleyebilir ve sayı tablosuna göre bir eylem gerçekleştirebilir.
Word belgeleri çizgilerle düzenlenen değildir. Lütfen bir adım geri atın ve çözüm olarak gördüğünüz şeyden ziyade çözmeye çalıştığınız sorunu açıklayın. –
Elbette - yanıt verdiğiniz için teşekkürler ... Bu yüzden bir metin içeren ve yaklaşık 5 veya 6 tablo içeren bu kelime belgesine sahibim. Her tablonun 2'den 6'ya kadar değişen sayıda sütunları vardır. Her tabloda ilk satır, başlığı tanımlar. Yapmaya çalıştığım, belgeyi okumak için (Powershell kullanarak), bir Oracle veritabanına karşı ayrı olarak çalıştırılabilen tabloların ve çıkış sql deyimlerinin içeriğini ayrıştırmaktır. Artık birçok belgeye sahibim ve bunların her biri yapı bakımından benzer. Ancak her birinde tablolarda az veya çok satır olabilir. – Anoop