İnsanlar temizlemek için, bu yüzden Word belgelerinin bir sürü HTML dönüştürmek için olsun. Sadece temel formatı korumak istiyorum - başlıklar, listeler ve vurgu - resim yok.HTML Word kullanan web siteme içerik göndermek
Onları Libre Office "HTML olarak kaydet" ile dönüştürdüğümde, sonuçta ortaya çıkan dosyalar çok büyüktür, örneğin, 112K bir doc dosyası 450K HTML olur, çoğu işe yaramaz FONT ve SPAN etiketleri (her nedense, her bir noktalama işareti kendi aralığına eklenmiştir!).
Bu betiği denedim: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 düzenli ve sed temelli ve boyutu yaklaşık 150 K'ye düşürdü, ancak hala birçok yararsız SPAN var.
kopyalamak ve geçmiş Kompozer içine çalıştı - Bir HTML editörü ve sonra HTML olarak kaydetmek; ama tüm Latin olmayan (İbranice) mektuplarımı, "ְ" gibi varlıklara dönüştürdü; temiz HTML oluşturmak için basit bir yolu var mı ... https://github.com/holloway/docvert/issues/6 ama bağımlılıkları sonsuz yolu gibi görünüyor başka kütüphaneleri gerektiren bir piton kütüphane, vb gerektirdiğini öğrendim:Ben docvert çalıştı Office belgelerinden senin durumda
Muhtemelen bir kopyası: http://stackoverflow.com/questions/67964/what-is-the-best-free-way-to-clean-up-word-html/1813798#1813798 –