Bir web sitesi kazıyıcı üzerinde ilerleme kaydetmeye başlıyorum, ama ben iki sapma ile karşılaştım. İşte kod ilk:Web sitesi python3 ve beautifulsoup ile kazıma 4
import requests
from bs4 import BeautifulSoup
r=requests.get("http://www.nytimes.com")
soup=BeautifulSoup(r.text)
headlines=soup.find_all(class_="story-heading")
for headline in headlines:
print (headline)
Sorular
Neden
find_all(class_= blahblahblah)
yerine sadecefind_all(blahblahblah)
kullanmak gerekiyor?story-heading
'un kendi başına bir sınıf olduğunun farkındayım, ancakfind_all
'u kullanarak tüm HTML'yi arayamıyorum ve aynı sonuçları elde edemiyorum? BeautifulSoup için notlar find_all.a tüm anchor etiketlerini bir HTML belgesine geri döndürüyor, nedenfind_all("story-heading")
aynı şeyi yapmıyor?Çünkü bunu yapmaya çalışırsam, HTML içindeki tüm "hikaye-yönelim" örneklerini bulabilir ve bunları iade edebilir mi? Bu etikette her şeyi iade etmek için python almaya çalışıyorum. Bu benim en iyi tahminim.
Tüm bu gereksiz gereksiz kodları neden alıyorum? Tüm istekleri bulmam, bana hikaye başlık etiketindeki her şeyi göstersin mi? Sadece belirtmeye çalıştığımdan çok daha fazla metin alıyorum.
Kodunuzu kod olarak biçimlendirin ve sadece yazıdaki normal metni değil, okuyabilelim – Keatinge