如果熟练的应用Python爬取妹子图!(老司机必备)

淘宝的这种模特,我想大家应该都知道叫淘女郎嘛。今天带大家去爬取一波,养养眼哈,如果你还在苦恼怎么入门python,小编有个建议,可以加小编弄的一个python交流基地,大家可以进入交流基地:58937142,里面新手入门资料,可以说从零到项目实战,都是可以免费获取的,还有程序员大牛为各位免费解答问题,热心肠的小伙伴也是蛮多的。不失为是一个交流的的好地方,小编在这里邀请大家加入我的大家庭。欢迎你的到来。一起交流学习!共同进步!小编等你!
分析美人库页面
然后,我们随便查看一个美女的首页,比如:
按照我们之前的爬取经验,这个地址应该能够从一开始的页面找到,毕竟是从那跳转过来的,于是,我们在页面源码中查找:
我们用chrome的开发者工具查看一下,或许能找到答案。
chrome开发者工具
从图中,我们可以看到好多请求,点击 xhr 选项卡,
有两个 ajax 请求,点击第二个(第一个是第一页的 ajax )查看:
看到了 宴宴 的信息,原来之前看到的图片个人信息啥的,都是用 ajax 加载过来的!
分析个人主页
接下来,我们再谈谈个人主页,来到 宴宴 的主页,我们观察其url
?spm=719.7763510.1998643336.36.qmzwex&userid=143534224
发现,请求参数主要是spm和userid,尝试去掉spm,看能不能访问到页面:
原来是可以用 ?userid=xxxxxx 访问的!
分析个人相册页
我们来到她的相册页,可以像分析个人主页一样,发现用 ?user_id=xxxxxx 就可以访问到相册页了。
个人相册
当我们查看个人相册页源码时,又发现:
什么都没有!老一套,于是我们再次打开了chrome开发者工具,
果然,又是 ajax 请求!
这也提醒我们只要,我们获得了这个请求的响应内容,爬取图片什么的,都不是事儿了!
查看头部信息
哈哈,原来只要请求 ?_charset=utf-8&user_id%20=xxxxxx 就可以了!!
user_id(xxxxxx)怎么弄
经过孜孜不倦的分析,我们终于发现,原来到达其他网页,比如个人首页,相册页等,最重要的就是 user_id 那一串数字了,那么那串数字怎么来的呢?
这就得回到我们最开始分析的地方,在分析美人库的时候其实已经得到了:
得到了user_id,再加上我们对url的分析,我们可以随心所欲了,想爬哪爬哪!
最后附上部分源码,其他的可以根据自己的需求补充或修改:
mport jsonimport randomimport urllib.requestfrom urllib.request import requestimport chardetimport urllib.parse