一篇文章教会你利用Python网络爬虫获取Mikan动漫资源

点击上方“it共享之家”，进行关注
回复“资料”可获赠python学习福利
【一、项目背景】
   [蜜柑计划 - mikan project] ：新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站，为大家第一时间分享最新动漫资源，每日精选最优质的动漫推荐。
【二、项目目标】
   实现获取动漫种子链接，并下载保存在文档。
【三、涉及的库和网站】涉及的库：requests、lxml、fake_useragent 软件：pycharm

【四、项目分析】
   首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮，观察到网站的变化分别如下所示：
l(html)one = parse_html.xpath('//tbody//tr//td[3]/a/@href')for li in one: yr = "https://mikanani.me" + li
6、二级页面请求，先找到页面父节点，for循环遍历，再用path获取到种子的下载地址。补全种子链接地址。
tow = parse_html2.xpath('//body')for i in tow: four = i.xpath('.//p[@class="episode-title"]//text()')[0].strip() fif = i.xpath('.//div[@class="leftbar-nav"]/a[1]/@href')[0].strip() # print(four) t = "https://mikanani.me" + fif print(t)

7、保存在word文档。
dirname = "./种子/" + four[:15] + four[-20:] + '.torrent' # print(dirname) html3 = requests.get(url=t, headers=self.headers).content with open(dirname, 'wb') as f: f.write(html3) print("%s下载成功" % four)

8、调用方法，实现功能。
html = self.get_page(url) self.parse_page(html)
【七、效果展示】
1、运行程序，在控制台输入起始页，终止页，如下图所示。

2、将下载成功的图片信息显示在控制台，如下图所示。

3、保存.torrent文档。
4、如何打开种子文件？先上传到百度云盘，如下图所示。
5、双击解析下载，如下图所示。
【八、总结】
1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。
2、本文章就python爬取mikan project，在下载种子的难点和重点，以及如何防止反爬，做出了相对于的解决方案。
3、介绍了如何去拼接字符串，以及列表如何进行类型的转换。
4、欢迎大家积极尝试，有时候看到别人实现起来很简单，但是到自己动手实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。
5、mikan project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。
6、需要本文源码的小伙伴，后台回复“动漫资源”四个字，即可获取。

Python进阶学习交流