2012-07-05 23 views
9

Küçük bir web uygulamasının statik bir görüntüsünü almak için yerel olarak wget kullanıyorum. Bunu yaptığımda, ortaya çıkan html dosyaları tırnak işaretleri ve kesme işaretleri yerine garip karakterler ile geri gelir.wget ve özel karakterler

Bu davranıştan kaçınmak için ne yapabilirim?

Teşekkürler.

+1

ekleyerek Apache ISO-8859 sayfalarını hizmet etmek yapılandırmak oldu? Dosyanın UTF-8 kodlaması olması muhtemeldir ve bunları UTF-8 olduklarını anlayan bir editör veya web tarayıcısında incelemeniz gerekir. –

+0

@Brett Bu sorunu nasıl çözdünüz? – SJU

+0

@AngelTsankov, şimdi bir süredir var, ama bir çözüm buldum sanmıyorum. – Brett

cevap

6

Belki de --remote-encoding belirtmeniz gerektiği gibi geliyor --remote-encoding=utf-8.

+1

Bunu denedim (sormamda belirtmeliydim) ve "wget: tanınmayan seçenek '--remote-encoding = utf-8'. - Yardım için -h aradığımda -remote-kodlama görünmüyor Windows'da olduğum için olabilir mi? – Brett

+0

Ve yerel terminal yerel ayarlarınızın doğru olduğundan emin misiniz? – Thor

+0

Hangi "wget" sürümünü çalıştırıyorsunuz? Wget --version ' – Thor

0

Aynı sorun vardı ama sonra tarayıcımın web sayfasının yanlış bir şekilde gösterilmesini sağladığını öğrendim. Örneğin Firefox'ta sadece View -> Character Encoding -> Unicode'u değiştirmem gerekiyordu.

--restrict-file-names=nocontrol 

Kaynak:

+0

Bu, benim için de sorunu çözdü, ancak sadece bir sayfa için. Wget tarafından indirilen bir sonraki sayfaya gittikten sonra, Firefox’un kodlamasını Unicode’a değiştirdim. – user1364368

9

Birlikte denemenizi öneririz http://www.win.tue.nl/~aeb/linux/misc/wget.html

+1

Teşekkür ederiz! Biraz farklı ama ilgili bir konu vardı ve bu seçenek (nocontrol yerine “ascii ile olsa da) nihayet bana ihtiyacım olan çözümü verdi. Her nasılsa, ben wget adamı okurken bunu atladım. –

0

Ben de böyle bir sorun vardı. İndirdiğim sayfanın gzipli olduğu ortaya çıktı. Bunu wget'de -S seçeneğini kullanarak kontrol edebilirsiniz. Bir

Content-Encoding bulacaksınız: gzip

çizgi. Böyle bir durumda dosyayı okumak için zcat kullanıyorum.

0

Bu web uygulamasının html yanıt olarak bu ihtiyaç böylece wget kodlamasını tahmin edemez görünüyor: özel karakterler ile <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

0

Bu aynı sorunu değişir vardı (bir wget ayna ve aynaya göz atarken Unicode "bilinmeyen char", ?) olarak gösterilen tırnak işaretleri.

Sorun, wget'a bağlı olmak yerine, farklı sunucu kodlama ile ilgili olduğu ortaya çıktı. Orijinal sunucu, ISO-8859 kodlamasıyla HTML sayfalarını sunmak için yapılandırılmış eski bir Windows + IIS yüklemesiydi, ayna ise UTF-8 sayfalarını sunmak üzere yapılandırılmış bir Linux + Apache sunucuydu.

çözüm nasıl ortaya çıkan dosyaları inceleyerek direktifi sağ sanal ana AddDefaultCharset ISO-8859-1