2011-10-23 20 views
9

Az önce Mozilla'nın harikaları ile tanıştım: Perl'in WWW :: Mechanize :: Firefox'la birlikte kullanıldı ve GWT'yi taramak için nasıl kullanılacağını anlamaya çalışıyordum. sayfalar (ör., https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)MozRepl ve Mechanize ile HTML oluşturuluyor :: Firefox

Gerçekten istediğim, gerçek html değil, işlenen html'dir. Bunu nasıl elde edeceğimin bir örneğini gerçekten takdir ediyorum.

+0

Sayfanın parçalarını, örneğin, örneğin: $ mech-> xpath ('// * [@ id = "goh-content-container"]', one => 1) -> kullanarak oluşturabilirim gibi görünüyor. {innerHTML}; Tuhaf bir şekilde, bu tutarlı bir şekilde işe yaramıyor. Bazen, hiçbir şey çıkarmaz ve diğer zamanlarda HTML'yi çıkarır. Sürekli olarak çıktı sağlamayan herhangi bir fikir var mı? –

+0

Daha fazla bilgi: tek bir tarayıcı çalıştırdığımda tutarlı bir şekilde çıktı gibi görünüyor, ancak MozRepl ile birden çok etkileşim kurarsam, çıktı daha az tutarlı olarak üretiliyor gibi görünüyor. Firefox 7.0.1 ile Ubuntu 11.04 üzerinde çalışıyor –

cevap

2

İşi bitirmek için fantastik PhantomJS'u kullanmaya karar verdim. Bir dinamik web sayfasının işlenmiş HTML'sini almak için bir sunucu tarafı aracı olarak Phantom'u kullanmak son derece kolaydır.

İlgili konular