i Python için çok yeni ve ben bir web sitesinden veri kazıyın çalışıyorum, ama şimdiye kadar sahip olduğum, tüm sayfaları gerekir:kazıyın web siteleri
import requests
from bs4 import BeautifulSoup
r = requests.get ("http://www.somesite.com/records/08-jan-2016/")
r.content
soup = BeautifulSoup(r.content, "html.parser")
full_info = soup.find_all("div", {"class": "col-sm-10"})
for item in full_info : print (item.text)
Bu kod, mevcut sayfadaki verileri yazdırır, tüm sayfalardan veri almayı ve bir dosyaya nasıl aktarmayı başarabilirim.
Saygılarımızla
"Tüm sayfaları" tanımlayın. Yinelemeli olarak erişilebilen bağlantılar mı? (yani onları "wget -r" ile alabilir misin?) Farklı URL'ler mi? Birbirine bağlanıyorlar mı? Normalde bağlantıları nasıl alırsın? OldSoup'ın çok tatlı olduğunu düşünüyorsun. Bir dosyaya yazmak için 'open' kullanabilirsiniz. – Kupiakos
Yanıt için teşekkürler, URL'ler şu şekilde biçimlendirilir: "http://www.somesite.com/records/08-jan-2016/" "http://www.somesite.com/records/09- Ocak-2016/" " http://www.somesite.com/records/10-jan-2016/ " vs, bugüne kadar, her sayfanın sonunda önizlemeler ve sonraki tarih için bir düğme vardır. – user1385619
Hangi tarihlerin geçerli olduğunu nasıl biliyorsunuz? Tüm tarihleri varsa mı yoksa bir listen var mı? – Kupiakos