python怎么抓取网页中DIV的文字

Python010

python怎么抓取网页中DIV的文字,第1张

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

不知道你是哪边看到的这个div函数,不过你可以使用help(div)来查看。我在官方文档上也没看到div函数,看到了相似的东西dir和divmod

给你讲下这2个的意思

dir 当你给dir()提供一个模块名字时,它返回在那个模块中定义的名字的列表。当没有为其提供参数时, 它返回当前模块中定义的名字的列表。

divmod 方法返回的是a//b(除法取整)以及a%b的值,结果类型为tuple,如divmod(7,3)它的值是(2,1)

代码在这里可以尝试一下

# 输入框输入内容

driver.find_element_by_id("kw").send_keys("seleniumm")

通过获取id或者class 获取到输入框,然后通过.send_keys("内容") 输入内容。