2011-12-05 18 views
11

Bazı sunucular, web tarayıcılarının web sitelerini taramasını önlemek için bir robots.txt dosyasına sahiptir. Bir web tarayıcısının robots.txt dosyasını yoksaymasının bir yolu var mı? Python için Mechanize kullanıyorum.Web Paleti - Yok Say Robots.txt dosyası?

+3

Bunu yaparsanız, muhtemelen yasal sorunlar vardır –

+3

Lütfen bunu yapma. –

+8

Aşağı çekmek, bu yasal bir soru olduğu için kötüdür. Ancak bu kötü bir fikir. –

cevap

26

mechanize için documentation Bu örnek kodu vardır Ne istiyorsunuz.

+0

Sorununuzu, metada yine [söz konusu sorunun işaretlenmesi] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) konusunda öneriyorum. Şüpheli telif hakkı ihlallerinin nasıl ele alınması gerektiğine dair farklı görüşler var gibi görünüyor ve kesin bir cevap yardımcı olacaktır. – NullUserException

+0

@NullUser yapacak. Sahip olduğum tüm çelişkili tavsiyeleri tek bir yerde toplamaya çalışacağım ve hepimizin ortak bir bakış açısına gelemeyeceğimizi göreceğiz! –

8

This neye ihtiyacınız benziyor:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

aynen yapar:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

ama ne yaptığını biliyor ...