2012-09-14 15 views
17

Linux için yeni başlayan biriyim. Bir html sayfasını bir metin dosyasına dönüştürme konusunda bana yardımcı olabilir misiniz? metin dosyası, web sayfasındaki tüm görüntüleri ve bağlantıları kaldırır. Metin dönüştürme araçlarına html değil sadece bash komutlarını kullanmak istiyorum. Örnek olarak, "bilgisayarlar" için ilk sayfa google arama sonuçlarını dönüştürmek istiyorum. bash komutu

komut satırında html2text var

+4

(http://mattgemmell.com/2008/12/ 08 /)/ne-sen-denedi? – ghoti

+0

Muhtemelen sadece "bash komutları" ile yapamayacaksınız, muhtemelen en azından 'sed' ya da 'awk' ye ihtiyacınız olacak. Sadece düz bash yerleşmeleriyle mümkün olmadığını söylemiyorum ama kesinlikle mümkün değil. – lanzz

cevap

18

teşekkür ederiz.

Kullanımı: html2text.py [(filename|url) [encoding]]

Options: 
    --version    show program's version number and exit 
    -h, --help   show this help message and exit 
    --ignore-links  don't include any formatting for links 
    --ignore-images  don't include any formatting for images 
    -g, --google-doc  convert an html-exported Google Document 
    -d, --dash-unordered-list 
         use a dash rather than a star for unordered list items 
    -b BODY_WIDTH, --body-width=BODY_WIDTH 
         number of characters per output line, 0 for no wrap 
    -i LIST_INDENT, --google-list-indent=LIST_INDENT 
         number of pixels Google indents nested lists 
    -s, --hide-strikethrough 
         hide strike-through text. only relevent when -g is 
         specified as well 
3

ben bağlantılar Bunu yapmanın en yaygın aracı olduğunu düşünüyorum. Adam bağlantılarını kontrol edin ve düz metin veya benzerleri arayın. -Ama benim tahminim, onu da ara. Yazılım çoğu dağıtımla birlikte gelir.

18

kolay yolu bu hangi dökümü gibi bir şey kullanmak sed kullanarak (kısa görüntülenebilir html metin sürümü olduğu)

uzak dosya

lynx --dump www.google.com > file.txt 
links -dump www.google.com 

yerel dosya

lynx --dump ./1.html > file.txt 
links -dump ./1.htm 
+0

Bunu yapmak için sadece lynx'i yükledim ve aldığım tek şey orijinal HTML'ydi ... – Alex

+0

https://linux.die.net/man/1/lynx Hatalı bir hata olabilir, işe yaradığını biliyorum – Vahid

+0

Yorum sayfasının okunması: '-dump: varsayılan belgenin biçimlendirilmiş çıktısını çıkarır '-" biçimlendirilmiş "ifadesi, tüm html etiketleriyle ... – Alex

3

olduğunu

sed -e 's/<[^>]*>//g' foo.html 
+2

Teşekkürler.Bu gerçekten yararlıdır. Ancak, bu <....> desen birden fazla satır olduğunda işe yaramadı. –

+0

Ayrıca ihtiyaç duyulmayan

7

txt formatına html dosyalarını dönüştürmek:

[size denedi Ne]
textutil -convert txt *.html