Bazı sunucular, web tarayıcılarının web sitelerini taramasını önlemek için bir robots.txt dosyasına sahiptir. Bir web tarayıcısının robots.txt dosyasını yoksaymasının bir yolu var mı? Python için Mechanize kullanıyorum.Web Paleti - Yok Say Robots.txt dosyası?
cevap
mechanize için documentation Bu örnek kodu vardır Ne istiyorsunuz.
Sorununuzu, metada yine [söz konusu sorunun işaretlenmesi] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) konusunda öneriyorum. Şüpheli telif hakkı ihlallerinin nasıl ele alınması gerektiğine dair farklı görüşler var gibi görünüyor ve kesin bir cevap yardımcı olacaktır. – NullUserException
@NullUser yapacak. Sahip olduğum tüm çelişkili tavsiyeleri tek bir yerde toplamaya çalışacağım ve hepimizin ortak bir bakış açısına gelemeyeceğimizi göreceğiz! –
This neye ihtiyacınız benziyor:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
aynen yapar:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
ama ne yaptığını biliyor ...
- 1. MVC.NET'te Robots.txt dosyası 4
- 2. Sembolik bağları yok say .gitignore
- 3. Robots.txt
- 4. Açık olan makinede OpenMP'yi yok say.
- 5. Git deposunda .pyc dosyasını yok say.
- 6. Sonar'daki yinelenen içe aktarma ifadelerini yok say.
- 7. Atom Ağacı Görünümü'nden belirli dosyaları yok say yok
- 8. Projenin default.properties dosyası yok!
- 9. Görüntü paleti azaltma
- 10. Termal görüntüleme paleti
- 11. Gizli dosyaları ve dizinleri obj-c ile yok say.
- 12. R - bazı senaryolarda uyarıda hatayı yok say, sonuçları al
- 13. Dize bul, kısmi yok say ve listeye ekle
- 14. robots.txt için Regexp
- 15. Alt dizinde robots.txt
- 16. SQL - Gruplandırmadan say
- 17. YML doğrulama dosyası yok sayılıyor
- 18. izin ver ve Disallow Robots.txt
- 19. PHPTAL - Belirtilen şablon dosyası yok
- 20. Functions.js dosyası "WebHook yok" webhookType
- 21. hashes için Ruby "say" yöntemi
- 22. FEDEX Web Hizmetleri wsdl dosyası
- 23. Arabirim Oluşturucu için Global Renk Paleti
- 24. Web dosyasında PDF dosyası oluşturulamıyor
- 25. Express'te, sitemap.xml ve robots.txt dosyalarını nereye yerleştiririm?
- 26. Robots.txt, çok dilli URL'ye izin verme
- 27. Python bir web komut dosyası dili mi?
- 28. Web Tarayıcıdan bir TIFF Dosyası Açma
- 29. Gitk: "Boşluk değerini yok say" seçeneğinin varsayılan olarak doğru olarak ayarlanması
- 30. Ayrıştırıcı Hata İletisi: '/TestSite/Default.aspx.cs' dosyası yok
Bunu yaparsanız, muhtemelen yasal sorunlar vardır –
Lütfen bunu yapma. –
Aşağı çekmek, bu yasal bir soru olduğu için kötüdür. Ancak bu kötü bir fikir. –