python爬虫如何分析一个将要爬取的网站?

Python016

python爬虫如何分析一个将要爬取的网站?,第1张

首先,你去爬取一个网站,

你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。

你会清楚你需要哪部分的数据

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施,无非就是各种百度各种解决。当爬取成本高于数据成本,你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题,利用各种语言的client组件去请求你想要爬取的URL,获取到HTML,利用正则,XPATH去解析你想要的数据,然后利用sql存储各类数据库。

去年在公司写过一个爬虫工具,用于抓取自动化报告通过率、自动发送报告。由于当时是第一次接触爬虫,难免会遇到各种问题,解决方案全都是按照网上的一些爬虫文章示例,照猫画虎写的。虽然能正常使用,但其实很多地方都没弄明白。最近学习了一些前端和后台的原理,了解了cookie与session的机制,总算弄明白了爬虫登录过程中的一个疑问。

编写爬虫第一步,在登录公司的自动化平台时就遇到了一个难题,登录请求中必须包含一个authenticity_token字段。令人头大的是,完全不知道这个字段从何而来,而且该字段还每次都不一样,参考的爬虫登录示例也没教啊!真是急坏苯宝宝了