2008-12-17 20 views
13

Word dosyalarını ayrıştırmak ve içeriği HTML olarak çıkarmak için OS X/Linux üzerinde kullanabileceğim bir kitaplık olduğunu bilen var mı?Word belgeleri ruby ​​ile nasıl ayrıştırılır?

Win32ole'ye baktım ama sadece Windows için olduğunu görebildiğim kadarıyla, hatalı olabilsem de.

Herhangi bir öneriniz var mı?

cevap

10

Word belge biçimi (şimdilik docx göz ardı ediliyor) korkunç ve sürekli değişiyordu. IMHO, bu yüzden onları ayrıştırmak için çok az sayıda (okuma: sıfır) Ruby kütüphanesi var.

Yapmayı önerdiğim şey, belge biçimini okumak için JRuby ve yerleşik Java kitaplıklarından bazılarını kullanmaktır. Google, orada size yardımcı olmalıdır: http://schmidt.devlib.org/java/libraries-word.html.

MIOsoft dosya formatlarını (POI (http://poi.apache.org/) okumak için bir Java projesi var ve Ruby bağlamaları (http://poi.apache.org/poi-ruby.html) var, ancak bunların ne kadar güncel olduklarından emin değilim. Sitelerinde Ruby bağlantılarının 1.8.2 ...

için olduğunu söylüyor.
İlgili konular