Google arama sonuçlarını Nokogiri ile nasıl ayrıştırabilirim?

URL'leri Google arama sonuçlarından çekme konusunda yardıma ihtiyacım var ve Nokogiri'yi kullanması söylendi. Onu yükledim ve Nokogiri dokümanlarını okudum ama nereden başlayacağımı bilmiyorum - hepsi benim için Yunan.Google arama sonuçlarını Nokogiri ile nasıl ayrıştırabilirim?

Aradığımı, her bir sonucun URL'sini (<cite> etiketi arasında) bulmak istediğimi biliyorum. Şimdiye kadar yaptığım her şeyin, arama sonuçlarını çekmesi gerektiğine karar verdim, ancak dosyadan belirli verileri nasıl çekeceğimi bilmiyorum. İşte var kod minicik biraz:

serp = Nokogiri::HTML(open("http://www.google.com/search?num=100&q=stackoverflow"))

kaynak

2011-05-16 Melanie Shebel

bakmak tadını çıkarın. Çok güçlüler ve hızlı bir şekilde yuvarlanmanıza yardımcı olabilirler. Oradan XPath'a girmeniz gerekecek, çünkü HTML veya XML'de olsun, genellikle düğümlerden sonra nasıl gidiyoruz. XPath, CSS'den çok daha güçlüdür, ancak bu güç, ek karmaşıklık ile birlikte gelir. Ayrıca, bir kullanılabilirlik ipucu olarak, '' '' 'Node '' olarak bir şeyin ilk oluşumunu bulur ve' arama' '' NodeSet' döndüren tüm oluşumları bulur. NodeSet, bir dizi düğüm gibidir, böylece bunu tekrarlayabilirsiniz. –

require 'open-uri' 
require 'nokogiri' 

page = open "http://www.google.com/search?num=100&q=stackoverflow" 
html = Nokogiri::HTML page 

html.search("cite").each do |cite| 
    puts cite.inner_text 
end

da CSS erişimci Nokogiri kullanımını araştırmak nokogiri tutorials

kaynak

2011-05-16 12:12:11 makevoid

Eski bir gönderiyi düzeltmek için değil, Google sonuçları için sonuç sayısını kontrol etmenin modern bir yolu olup olmadığını biliyor musunuz? Num sorgu dizesi artık çalışmıyor. –

@DaveBu benim için çalışıyor ama bence 100 sonuçların zor bir sınırı var – makevoid

Bu daha fazla işe yaramıyor gibi görünüyor, google vahşi ayrıştırma gibi değil –

Google arama sonuçlarını Nokogiri ile nasıl ayrıştırabilirim?

cevap

İlgili konular