Yani Lxml çok eli özelliği vardır LXML içinPython BeautifulSoup eşdeğer make_links_absolute
doc = lxml.html.fromstring(some_html_page)
doc.make_links_absolute(url_for_some_html_page)
ve dokümanın tüm bağlantıları artık mutlak vardır. BeautifulSoup kolay bir eşdeğer var mı yoksa sadece urlparse içinde geçirilmekte ve onu normalleştirmek gerekiyor:
soup = BeautifulSoup(some_html_page)
for tag in soup.findAll('a', href=True):
url_data = urlparse(tag['href'])
if url_data[0] == "":
full_url = url_for_some_html_page + test_url
Ben lxml aşina değilim, ancak URL normalleştirme çok kolay değil. Onları normalleştirmek mi yoksa sadece onları mutlaklaştırmak mı istiyorsunuz? –