您现在的位置是:首页 > 创新技术
requests库请求获取不到数据怎么办?不妨试试看这种妙法
智慧创新站
2025-04-28【创新技术】231人已围观
简介作者:Python进阶者一、思路很多网站都对requests反爬了,这种时候,一般有两个选择,要不就找js接口,要不就用requests_html等其他工具,这里他使用了后者requests_html工具。二、分析一开始直接使用requests进行请求,发现得到的响应数据并不对,和源码相差万里,然后...
作者:Python进阶者
一、思路很多网站都对requests反爬了,这种时候,一般有两个选择,要不就找js接口,要不就用requests_html等其他工具,这里他使用了后者requests_html工具。
二、分析一开始直接使用requests进行请求,发现得到的响应数据并不对,和源码相差万里,然后就考虑到网站应该是有反爬的,尝试加了一些ua,headers还是不行,于是乎想着使用requests_html工具小试牛刀。
三、代码下面就奉上本次爬虫的代码,欢迎大家积极尝试。
注意!这里抓取到的源码和手动打开的页面源码不一样def解密(列表):注意!此处编写正则时,要匹配的源码是函数“抓取源码”得到的html不用抓包,这里的url就是用户搜索时的页面url="https://某某查网站/s?q=%E4%B8%8A%E6%B5%B7%E5%99%A8%E6%A2%B0%E5%8E%82t=0"html=抓取源码(url)print(html)公司列表=解析页面(html)print(公司列表)
这里大家可能觉得很奇怪,竟然有中文的函数命名和变量命名,这里是应原作者的要求,所以未做修改,但是不影响程序执行效果。
程序运行之后,可以看到目标字段都可以抓下来。
四、总结我是Python进阶者。本文基于粉丝提问,针对一次有趣的爬虫经历,分享一个实用的爬虫经验给大家。下次再遇到类似这种使用requests库无法抓取的网页,或者看不到包的网页,不妨试试看文中的requests_html方法,说不定有妙用噢!
很赞哦!(136)