2012-10-15 34 views
16
'da Microsoft Office dosyalarını ayrıştırma

Kullanıcıların Microsoft Office Document dosyalarını karşıya yükleyebileceği bir web uygulaması üzerinde çalışıyorum. Şu anda sunucumuz, Express.js ile Node.JS kullanıyor ve biz de Heroku'da. Bu nedenle, abiword veya catdoc gibi programları yükleyebileceğimi düşünmüyorum. Dosya yüklemelerini halledebilirim, ancak belgenin içeriğini ayrıştıramıyor.Node.JS

Doküman dosyasının içeriğini nasıl okuyabilirim? Bilgi daha sonra bir veri tabanına konacaktır. Temel biçimlendirmeyi (kalın, italik, altı çizili) korumak iyi olur, ancak gerekli değildir.

cevap

7

, başka bulut hizmeti üzerinden istemesine gerek REST API kullanmak mümkün olabilir. Örneğin, Saaspose (ünlü Aspose araçlarının), Word, Excel, PDF ve diğerleri için genel API'ye sahiptir. Sayfasında node.js, javascript ve Heroku desteğini listeliyorlar.

DÜZENLEME: npm install office cevabın en azından bir kısmını sağlamak gibi görünüyor: Ben Saaspose şimdi denir görüyoruz

Aspose for Cloud

benzer bir şey iddia Başka API Doxument

+0

Bu mükemmel! Çok teşekkür ederim. – arknave

4

Office paketidir. Excel dosyalarını okumak için kullanıyorum, şu ana kadar hiçbir Word dokümanı denemedim.

+1

Not: Bu paket, unoconv http://dag.wieers.com/home-made/unoconv/ (OpenOffice dönüştürücü) çalıştırılarak girdiyi HTML'ye dönüştürür. (E-tablolar için unoconv ile xls dönüştürmek, daha sonra http://freecode.com/projects/xlhtml kullanarak xls-> html dönüştürmek gibi görünüyor) – Nickolay

+2

ve unoconv gerektirir [libreoffice] (http://www.macupdate.com/app/mac/35446/libreoffice) .. tavşan deliği ne kadar derine gidiyor? Tüm bu uygulamaları tüm sunucularınıza yüklemek istemediğiniz sürece bu çözümün çok iyi ölçeklenmeyeceğini sanmıyorum. Bu oldukça açık bir iştir. – abbood