2009-07-11 27 views
5

UTF8 kodlu metin üzerinde XML :: RAI perl modülünü kullanmaya çalışıyorum ve hala anlayamıyorum hatayı gerçekten anlamadım ... işte buradaki kod (o) henüz yararlı bir şey yapmaması gereken:"Geniş karakterlerle dizginin şifresini çözemez", garip bir yerde görünür

use HTTP::Request; 
use LWP::UserAgent; 
use XML::RAI; 
use Encode; 

my $ua = LWP::UserAgent->new; 


sub readFromWeb{ 
    my $address = shift; 
    my $request = HTTP::Request->new(GET => $address); 
    my $response = $ua->request($request); 
    return unless $response->code == 200; 

    return decode("utf8", $response->content()); 
} 

sub readFromRSS{ 
    my $address=shift; 
    my $content = readFromWeb $address; 
    my $rai = XML::RAI->parse_string($content); 
      #this line "causes" the error 
} 


readFromRSS("http://aktualne.centrum.cz/export/rss-hp.phtml"); 
    #I am testing it on this particular RSS 

hatadır: benim hatam veya XML hatası :: RAI ise

Cannot decode string with wide characters at /usr/lib/perl5/5.8.8/i686-linux/Encode.pm line 166. 

bir ipucu yok. Bu geniş karakterlerin nerede olduğunu göremiyorum, eğer $ içerik zaten utf8'den çözülürse ...

düzenleme: bir nedenden dolayı hala anlamıyorum, "kod çözme" parçasının kaldırılması sorunu gerçekten çözdü.

cevap

9

Sorun, çift kod çözme işlemidir. XML::RAI::parse_string() görünüşte , UTF-8 kodlu bir belge bekler ve kod çözme işlemini kendisi yapar. Zaten elbette , başarısız olacak ikinci kez dekode deşifre edilen bir dizede geçen ise:

#!/usr/bin/perl 
use strict; 
use warnings; 

use Encode qw(decode); 
use LWP::Simple qw(get); 

my $xml = get("http://aktualne.centrum.cz/export/rss-hp.phtml"); 

$xml = decode('UTF-8', $xml); 
$xml = decode('UTF-8', $xml); # dies: Cannot decode string with wide characters ... 

Dolayısıyla, sadece decode() adımı atlayın ve iyi olacak.