Linux için yeni başlayan biriyim. Bir html sayfasını bir metin dosyasına dönüştürme konusunda bana yardımcı olabilir misiniz? metin dosyası, web sayfasındaki tüm görüntüleri ve bağlantıları kaldırır. Metin dönüştürme araçlarına html değil sadece bash komutlarını kullanmak istiyorum. Örnek olarak, "bilgisayarlar" için ilk sayfa google arama sonuçlarını dönüştürmek istiyorum. bash komutu
komut satırında html2text varcevap
Ben python-boilerpipe kullanılan ve
teşekkür ederiz.
Kullanımı: html2text.py [(filename|url) [encoding]]
Options:
--version show program's version number and exit
-h, --help show this help message and exit
--ignore-links don't include any formatting for links
--ignore-images don't include any formatting for images
-g, --google-doc convert an html-exported Google Document
-d, --dash-unordered-list
use a dash rather than a star for unordered list items
-b BODY_WIDTH, --body-width=BODY_WIDTH
number of characters per output line, 0 for no wrap
-i LIST_INDENT, --google-list-indent=LIST_INDENT
number of pixels Google indents nested lists
-s, --hide-strikethrough
hide strike-through text. only relevent when -g is
specified as well
ben bağlantılar Bunu yapmanın en yaygın aracı olduğunu düşünüyorum. Adam bağlantılarını kontrol edin ve düz metin veya benzerleri arayın. -Ama benim tahminim, onu da ara. Yazılım çoğu dağıtımla birlikte gelir.
kolay yolu bu hangi dökümü gibi bir şey kullanmak sed kullanarak (kısa görüntülenebilir html metin sürümü olduğu)
uzak dosya
lynx --dump www.google.com > file.txt
links -dump www.google.com
yerel dosya
lynx --dump ./1.html > file.txt
links -dump ./1.htm
Bunu yapmak için sadece lynx'i yükledim ve aldığım tek şey orijinal HTML'ydi ... – Alex
https://linux.die.net/man/1/lynx Hatalı bir hata olabilir, işe yaradığını biliyorum – Vahid
Yorum sayfasının okunması: '-dump: varsayılan belgenin biçimlendirilmiş çıktısını çıkarır '-" biçimlendirilmiş "ifadesi, tüm html etiketleriyle ... – Alex
olduğunu
sed -e 's/<[^>]*>//g' foo.html
Teşekkürler.Bu gerçekten yararlıdır. Ancak, bu <....> desen birden fazla satır olduğunda işe yaramadı. –
Ayrıca ihtiyaç duyulmayan
iyi bir seçimdir. Eğer toplu textutil denilen komut satırı aracını kullanabilirsiniz OSX'te http://linux.die.net/man/1/html2text
txt formatına html dosyalarını dönüştürmek:
[size denedi Ne]textutil -convert txt *.html
- 1. Bash komutu, bir başka iki nokta üst üste koymadan önce Bash komutu ile eşittir
- 2. Bash döngü komutu boşlukları içeren listeden geç
- 3. bash komutu ve geri dönüş durumu
- 4. Linux Bash Komutu Unlimitd Argümanları Alabilir
- 5. ruby execute bash komutu ile değişkenler
- 6. Bash
- 7. bash script sed komutu beklenmedik EOF ile eşleşme aranırken "" '
- 8. .gitconfig, default editor komutu için bash alias'ı takip etmiyor mu?
- 9. Bash satır içi komutu için Windows yarasa alternatifi
- 10. Bir sudo komutu için bash process substitution kullanma
- 11. Bir dizindeki tüm Fortran dosyalarını bulmak için Bash komutu
- 12. Bash komutu yerine koyma ($ (...)) işlemi ön plana zorluyor
- 13. bash pipestatus? Bash içinde
- 14. MySQL Komutu bulunamadı [MAMP]
- 15. komutu?
- 16. DrRacket'te önceki komutu nasıl alabilirim?
- 17. İplik global komutu çalışmıyor
- 18. Cygwin ls komutu bulunamadı
- 19. "sudo" ile son komutu tekrarla
- 20. Bash
- 21. Bash
- 22. bash
- 23. BASH
- 24. bash
- 25. bash,
- 26. bash
- 27. bash
- 28. Bash
- 29. BASH
- 30. Bash
(http://mattgemmell.com/2008/12/ 08 /)/ne-sen-denedi? – ghoti
Muhtemelen sadece "bash komutları" ile yapamayacaksınız, muhtemelen en azından 'sed' ya da 'awk' ye ihtiyacınız olacak. Sadece düz bash yerleşmeleriyle mümkün olmadığını söylemiyorum ama kesinlikle mümkün değil. – lanzz