拉勾网数据采集与可视化

Python013

拉勾网数据采集与可视化,第1张

本文用python采集的是拉钩网上的'python'岗位数据,然后用python进行数据的可视化,主要涉及python爬虫和python数据分析的内容。

首先用浏览器打开拉勾网首页搜索python,然后利用浏览器的开发者工具分析网络请求,发现拉勾网的数据交互是动态网页,通过对比网页上的数据发现数据提交的真实网址,再仔细观察发现拉勾网的饭爬措施。提交数据是post方式如下图

仔细再看一下发现一个get请求,分析get里面的响应内容为公司的id,通过对比发现,和post请求之间有关联,因为post请求返回的内容里面有公司的id,而且刚好是15个。

python程序员工作地点大部分集中在北京、深圳、上海、成都、广州、杭州、武汉,其中北京最多,招聘要求大部分是3-5年和1-3年的工作经验,对学历的要求为本科,工资大在8k-30k之间,从词语分析上看从事开发方向比较多。

1、Web开发

目前豆瓣、知乎、拉勾网等都是用的Python做开发,由此可见Web开发在国内的发展还是很不错的。

因为Python的web开发框架是最大的一个优势,如果你用Python搭建一个网站,只需要几行的代码,可谓是十分简洁。

2、网络爬虫

现在学习Python的人员中,大部分都是在学习爬虫,这也是Python的一大优势之一,最早用Python做网络爬虫的就是谷歌。

为什么用python写爬虫?

a. 跨平台,对Linux和Windows都有不错的支持

b. 科学计算,数值拟合:Numpy、Scipt

c. 可视化:2d:Matplotlib(做图很漂亮),3d:Mayavi2

d. 复杂网络:Networkx

e. 统计:与R语言接口:Rpy

f. 交互式终端

3、人工智能

发展潜力和钱途不用多说,这都是大家所知道的,但目前的话,人工智能方面的工作还是比较少的,而且都是高学历人士,以后的话肯定是最具有发展潜力的方向了。

4、服务器运维

运维也不陌生,最开始一批学习Python的人,就是运维和测试的在职人员,因为Python对于他们的工作起到很大的作用,因为使用Python脚本进行批量化的文件部署和运行调整都成了Linux服务器上很不错的选择。

5、数据分析

Python所拥有的完整的生态环境十分有利于进行数据分析处理,比如,"大数据"分析所需要的分布式计算、数据可视化、数据库操作等,都可以通过Python中的十分成熟的模块完成。