2016-03-04 12 views
7

Ben pandoc bir acemi oldum, bu yüzden bariz bir şey eksik olmalıyım. MS Word tarafından oluşturulan HTML dosyasını markdown'a dönüştürmeye çalışıyorum. İşte bir test html geçerli:Neden pandoc html’yi markdown’a dönüştürürken span ve div etiketlerini tutar?

<html xmlns="http://www.w3.org/1999/xhtml"> 
<head> 
    <title></title> 
</head> 
<body> 
    <div class="Section1"> 
    <p class="Question"><span style="FONT-SIZE: 10pt">Today</span> <span style= 
    "FONT-SIZE: 10pt">is</span> <span lang="HR" style= 
    "FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span style= 
    "FONT-SIZE: 10pt">nice</span> <span style="FONT-SIZE: 10pt">day</span> 
    </p> 
    </div> 
</body> 
</html> 

ve ben onu dönüştürmek için deneyin:

pandoc -f html -t markdown test.html -o test.md 
bekliyordum

"Bugün güzel bir gün olduğunu", ancak var:

<div class="Section1"> 

<span style="FONT-SIZE: 10pt">Today</span> <span 
style="FONT-SIZE: 10pt">is</span> <span lang="HR" 
style="FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span 
style="FONT-SIZE: 10pt">nice</span> <span 
style="FONT-SIZE: 10pt">day</span> 

</div> 

Div neden tutuldu? Açıklıklar neden tutuldu?

cevap

12

Bazılarını kapatmanız gerekiyor extensions. Ya HTML giriş tarafında:

$ pandoc -f html -t markdown-raw_html-native_divs-native_spans-fenced_divs test.html -o test.md 
:
$ pandoc -f html-native_divs-native_spans -t markdown test.html -o test.md 

Ya markdown çıkış tarafında

İlgili konular