python如何爬取js渲染后列表

JavaScript08

python如何爬取js渲染后列表,第1张

使用js渲染的列表优先查看是否能爬取js取得的数据源

若流量追踪无法检测到, 可以通过selenium等web自动化工具

若嫌弃这些工具太大, 可以用pyExecJs执行js

可以使用selenium+ phantomjs

PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG等,同时也提供了处理文件I/O的操作,从而使你可以向操作系统读写文件等。PhantomJS的用处可谓非常广泛,诸如前端无界面自动化测试(需要结合Jasmin)、网络监测、网页截屏等。