'u kullanarak iç içe 'img src' ayıklayın Bu konuda Scrapy veya python'u kullanmanın nispeten yeni biriyim. Birkaç farklı bağlantıdan ayıklamak için arıyorum ve bir HTMLXPathSelector ifadesi (sözdizimi) kullanarak sorunları yaşıyorum. Doğru sözdizimi için kapsamlı belgelere baktım ama henüz bir çözüm bulmaya geldim. Ben x.select için sözdizimi anladım düşünüyorumScrapy - xPathSelector
Page I am trying to extract the img src url from
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class GeekSpider(BaseSpider):
name = "geekS"
allowed_domains = ["geek.com"]
start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
imgurl = hxs.select("//div[@class='article']//a/img/@src").extract()
return imgurl
: Burada
bir bağlantı örneği ben den 'img src' ayıklamak için çalışıyorum olduğunu Ancak bu sözdizimine/yöntemine yenilediğimden emin değilim.
from scrapy.item import Item, Field
class GeekItem(Item):
imgsrc = Field()
netleştirmek için: Ne yapmak arıyorum sayfada olduğunu img src url ayıklamak olduğunu
İşte benim items.py dosyasıdır, temelde bunun için scrapy öğretici izledi. Daha önce anladığım tüm imaj src'lerini çıkarmam gerekmiyor (çok daha kolay).
Sadece onu daraltmak ve img src'in belirli URL'sini ayıklamak istiyorum. (Ben bu sitede çoktan sayfaya bakıyorum)
Herhangi bir yardım büyük beğeni topluyor!
DÜZENLEME - Güncelleme Kod Ben senin xpath ifadesi daha böyle olması gerektiğine inanıyoruz
Yani yalnızca tıklanabilir bir bağlantı olan resmi (yani "kindle-fire-hd.jpg") istiyorsunuz? – Talvalin
Evet, tam olarak. Görüntüyü kendisinin, sadece resmin URL'sini döndürmek istemiyorum, böylece saklayabiliyorum. – Twhyler
Karışıklığı önlemek için, lütfen gönderildiği ilk örümcek kodunu güncelleyin ve ikincisini silin. :) – Talvalin