Web Paleti - Yok Say Robots.txt dosyası?

Bazı sunucular, web tarayıcılarının web sitelerini taramasını önlemek için bir robots.txt dosyasına sahiptir. Bir web tarayıcısının robots.txt dosyasını yoksaymasının bir yolu var mı? Python için Mechanize kullanıyorum.Web Paleti - Yok Say Robots.txt dosyası?

kaynak

2011-12-05 Craig Locke

Bunu yaparsanız, muhtemelen yasal sorunlar vardır –

Lütfen bunu yapma. –

Aşağı çekmek, bu yasal bir soru olduğu için kötüdür. Ancak bu kötü bir fikir. –

mechanize için documentation Bu örnek kodu vardır Ne istiyorsunuz.

kaynak

2011-12-05 14:10:33

Sorununuzu, metada yine [söz konusu sorunun işaretlenmesi] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) konusunda öneriyorum. Şüpheli telif hakkı ihlallerinin nasıl ele alınması gerektiğine dair farklı görüşler var gibi görünüyor ve kesin bir cevap yardımcı olacaktır. – NullUserException

@NullUser yapacak. Sahip olduğum tüm çelişkili tavsiyeleri tek bir yerde toplamaya çalışacağım ve hepimizin ortak bir bakış açısına gelemeyeceğimizi göreceğiz! –

This neye ihtiyacınız benziyor:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False)

aynen yapar:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False)

ama ne yaptığını biliyor ...

kaynak

2011-12-05 14:09:31 eumiro

Web Paleti - Yok Say Robots.txt dosyası?

cevap

İlgili konular