如何用python爬虫直接获取被js修饰过的网页Elements?

Python024

如何用python爬虫直接获取被js修饰过的网页Elements?,第1张

对于这种动态加载的网站,建议使用第三方库selenium爬取。

它可以完全模拟浏览器,等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持,网站上的元素也支持多种选择器,如class、id、xpath等。

但是用习惯以后,对于这种非纯静态页面,离开selenium感觉就完全不会爬虫了。

大家好,我是辣条。

一个建筑行业的堂哥为了搞一些商业数据前前后后花了1w,辣条我半个小时就能解决的事情,这就是技术的魅力【爬取是的公开数据!】

网址:监管平台

开发工具:pycharm 开发环境:python3.7, Windows10 使用工具包:requests,AES,json

进去h里面 (鼠标光标放到 h上面 会显示他的 js地址 如果没有显示 就是证明你还没有执行到这里 需要在前面打上断点 刷新页面调试)

发现这个采用AES加密算法 使用模型CBC模式 采用填充方式为 Pkcs7

证明数据推导正确 在 return r.toString() 打上断点

r里面数据正常返回