Python爬取表单数据

Python030

Python爬取表单数据,第1张

我们在一些没有反爬虫机制的生物网站上,可以利用Python做一些“省力”的事情,比方说ID的转换

我们以uniprot为例,进入它的转换页面 传送门 ,页面:

这里介绍下 urllib 这个Python库,该库功能非常强大,可以爬取动态网页

根据这个思路,我们看看该网站的网页结构:

url 为ID转换的网址,params是你要爬取的内容,存储为字典形式,那么字典的键值代表HTML表单(form)里面 name 的内容:

比方说 from:

字典的键值与form的name标签的内容对应

to也是一样的:

至于 "format": "tab" 是指我们把爬下来的网页转换为 tab 格式

当然,这招适用于表单提交的爬虫,如果爬取的内容过多,不妨写个函数:

参考: 传送门

python用for循环爬取公司利润表,操作如下。

1、实战背景很多网站都提供上市公司的公告、财务报表等金融投资信息和数据,比如:腾讯财经、网易财经、新浪财经、东方财富网等,这之中,发现东方财富网的数据非常齐全。

2、接着,点击下一页按钮,可以看到表格更新后url没有发生改变,可以判定是采用了Javscript。