2016-03-30 81 views
-1

tarafından yüklenmekte olduğuna İşte, yakınlık kullanın ben bilgi almak için Python kullanarak, benim kodudur, başlıklar, oturum, simüle etmek ama 501.Bu sitede (http://www.itslaw.com) başlığını almaya çalıştı, bu JavaScript

# -*- coding: utf-8 -*- 
import requests 
from pyquery import PyQuery as pq 
from goose import Goose 
from goose.text import StopWordsChinese 
import json 
import time 


class ItSlaw(object): 

    def __init__(self): 
     self.url = 'XXXX'     
     self.headers = {'XXXX'} 
     self.result = None 
     self.keyword = None 
     self.session = requests.Session() 

    def reset(self, keyword): 
     self.keyword = keyword 
     self.result = None 

    def fetch(self): 
     url = self.url.format(keyword='self.keyword',keywordcopy='self.keyword') 
     res = [] 
     time.sleep(3) 
     proxies = {"http": "14.111.148.1"} 
     r = self.session.get(url, proxies=proxies) 
     print r.status_code 
     completed_url = 'http://www.itslaw.com/' + 'url' 
     g = Goose({'stopwords_class': StopWordsChinese}) 
     article = g.extract(url=completed_url) 
     content = article.cleaned_text 
     res.append() 
     self.result = res 
     return self.result 

    def get_result(self): 
     return self.result 

cevap

İlgili konular