2012-11-02 7 views
5

Bir web sayfasını ayrıştırmak için Jsoup kullanıyorum. Ancak, ayrıştırmak istediğim bilgiler, ayrıştırıcının içindeki verileri ayıklamasını engelleyen bir CDATA etiketinin içinde bulunuyorsa. Bir CDATA etiketinden veri ayıklamak için nasıl giderim? ÖRNEK:Jsoup, CDATA etiketlerine sahip javascript'in içeriğini alır mı?

<script type='text/javascript'><!--// <![CDATA[ 
    OA_show('300x250'); 
// ]]> --></script> 
     <script type='text/javascript'>alert("Hello");</script> 

ben bu sayfayı ayrıştırmak ve ben sayfasında diğer komut içeriğini geri verilmesinde ile "komut [type = text/javascript]" sayfasında tüm tha eşleşen elemanlarını seçerek denemek için Jsoup kullanırsanız CDATA etiketlerine sahip değil, Alert ("Hello") yok; değer. Bunu nasıl bir CDATA etiketinde Jsoup ile bir değer elde etmek için giderdim?

Teşekkürler!

+3

Sorunun CDATA olduğunu düşünmüyorum, ama onu çevreleyen açıklama. Web sayfası metnini JSoup'a göndermeden önce, yorumu ve CDATA bokunu ('String.replace()' ile) açamaz mısınız? Hiçbir şey etkilememelidir, toleranslı bir HTML ayrıştırıcısı,