2011-06-28 13 views
7

Bir doc veya docx belgesini bir txt dosyasına dönüştürmemize izin veren bir program arıyoruz. Linux ile çalışıyoruz ve kullanıcı tarafından yüklenen doc dosyalarını dönüştüren bir web sitesi başlatmak istiyoruz. Açık ofis/libre bürosunu kullanmak istemiyoruz çünkü bununla ilgili kötü bir tecrübemiz var. Pandoc, doc dosyalarını kullanamaz:/Dokümanı komut satırı aracılığıyla txt'ye dönüştürün

Herkesin bir fikri var mı?

cevap

1

Burada yaptığı iddia edilen bir perl project. Ben de el ile bir çok şey yaptım, document.xml üzerinde XSLT kullanarak. Docx dosyasının kendisi sadece bir zip dosyasıdır, bunu açıp öğeleri inceleyebilirsiniz. Bunun belirli dosyalar için yapılmasının zor olmadığını söyleyeceğim, ama genel olarak, Word'ün içerideki şeyleri nasıl depoladığı ve içsel temsili farklılaştırdığı için belgelerin eksikliğinden dolayı yapılması çok zor.

3

.doc veya .docx biçiminde çalışıyorsanız, iki farklı komut satırı aracı kullanmanız gerekir. .doc kullanım catdoc için

:

catdoc foo.doc > foo.txt 

.docx kullanım docx2txt için:

docx2txt foo.docx 

orijinaliyle aynı dizinde fan.txt adlı bir dosya üretecek ikincisi.

Hangi Linux dağıtımını kullandığınızdan emin değilim, ancak hem catdoc hem de docx2txt, örneğin Ubuntu depolarından edinilebilir.

İlgili konular