准备工具:requests与xpath
思路:获取爬取入口,后面的工作就容易多了。我通过测试发现这几个栏目除了页面的 url地址不一样之外,提取信息的xpath路径是一样的!所以,我们把五个栏目当做一个类,然后该类进行遍历爬取!
2.2爬虫构架的设计
2.3代码
#截止到2017-08-08,最新电影一共才有 164个页面lastest_moive_total_sum = 6 #164#请求网络线程总数,线程不要调太好,不然会返回很多 400thread_sum = 5def startspider: #实例化对象 #获取【最新电影】有多少个页面 lastest_moive_total_sum = dytt_lastest.getmaxsize print('【最新电影】一共 ' + str(lastest_moive_total_sum) + '有个页面') dyttlastest = dytt_lastest(lastest_moive_total_sum) floorlist = dyttlastest.getpageurllist floorqueue = taskqueue.getfloorqueue for item in floorlist: floorqueue.put(item, 3) # print(floorqueue.qsize) for i in range(thread_sum): workthread = floorworkthread(floorqueue, i) workthread.start while true: if taskqueue.isfloorqueueempty: break else: pass
源码: