python爬取网页内容数据需要建文件夹吗

2023-02-12 14:34:01Python041

python爬取网页内容数据需要建文件夹吗,第1张

需要。python爬取网页内容数据之就需要建一个文件夹来存放爬取的内容。Python由荷兰数学和计算机科学研究学会的吉多范罗苏姆于1990年代初设计，作为一门叫做ABC语言的替代品。

python

打开APP

小羊努力搞代码

关注

学习日志：Python 实现网络爬虫——提取关键字原创

2022-06-19 13:02:38

小羊努力搞代码

码龄174天

关注

编写一段Python代码，向百度提交查询关键词“桃花源记”，抓取百度的查询结果，要求有文字、链接，可以在浏览器中打开抓取的链接，或者调用浏览器打开抓取的链接。

红框内是根据网站信息需要更改的内容。57031baa3a394395be479ad89f1ff15e.png

附上完整代码：

import json

import requests

from lxml import etree

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "

"Chrome/88.0.4324.104 Safari/537.36"

}

response = requests.get('https://www.baidu.com/s?wd=桃花源记&lm=0', headers=headers)

r = response.text

html = etree.HTML(r, etree.HTMLParser())

r1 = html.xpath('//h3')

r2 = html.xpath('//*[@class="content-right_8Zs40"]')

r3 = html.xpath('//*[@class="c-row source_1Vdff OP_LOG_LINK c-gap-top-xsmall"]/a/@href')

for i in range(4):

r11 = r1[i].xpath('string(.)')

r22 = r2[i].xpath('string(.)')

r33 = r3[i]

with open('桃花源记.txt', 'a', encoding='utf-8') as c:

c.write(json.dumps(r11,ensure_ascii=False) + '\n')

c.write(json.dumps(r22, ensure_ascii=False) + '\n')

c.write(json.dumps(r33, ensure_ascii=False) + '\n')

print(r11, end='\n')

print('------------------------')

print(r22, end='\n')

print(r33)

方法/步骤

在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。

请点击输入图片描述

然后在python的编辑器中输入import选项，提供这两个库的服务

请点击输入图片描述

urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。

请点击输入图片描述

抓取下来了，还不算，必须要进行读取，否则无效。

请点击输入图片描述

接下来就是抓码了，不转码是完成不了保存的，将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述

最后再输入三句，第一句的意思是新建一个空白的word文档。

第二句的意思是在文档中添加正文段落，将变量XA抓取下来的东西导进去。

第三句的意思是保存文档docx，名字在括号里面。

请点击输入图片描述

这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。

请点击桃花源记小羊图片数据

# 上一篇：golang怎么实现psd

# 下一篇：R语言相关性分析

给您推荐相同类型的内容：

使用Go 语言开发大型 MMORPG 游戏伺服器怎么样
使用Go 语言开发大型 MMORPG 游戏伺服器怎么样如果是大型网路游戏的话，我觉得是不合适的。现阶段go语言的执行效率还是太低了。在底层编译器的优化方面做得和c++相比还是差了不少。go语言也是比较适合快速开发的专案比较合适从
满满干货！20个Python使用的小技巧
本节对一些 Python 易混淆的操作进行对比。1.1 有放回随机采样和无放回随机采样 1.2 lambda 函数的参数 1.3 copy 和 deepcopy复制和变量别名结合在一起时，
go语言和java哪个更有前途
go语言和java，go语言更有前途。1.Java仍然是主流的企业级应用编程语言，看看阿里，华为等大厂的招聘岗位就知道了。2.Go语言代表了未来，很多新兴上市公司，如B站，高途课程等用Go做主编程语言。我所知道的一些创业公司，也开会尝试
php怎么将指定日期转换为时间戳？
在MySQL中完成。下面介绍两种php将指定日期转换为时间戳的方法：第一种：在MySQL中完成这种方式在MySQL查询语句中转换，优点是不占用PHP解析器的解析时间，速度快，缺点是只能用在数据库查询中，有局限性。UNIX时间戳转换为日
怎样在C语言创建线性表？
#include"stdio.h"x0dx0a#includex0dx0a x0dx0atypedef char ElemTypex0dx0a x0dx0atypedef struct LNodex
c语言n次方怎么写
C语言中除了使用函数pow实现乘方运算，没有其他的运算符号可以用来直接表示乘方，就算自己实现也只能是以函数的形式体现出来。1、C语言中计算一个数的N次方可以用库函数pow来实现，还可以直接使用2^3就可以算出结果。pow函数原型：doub
c++如何注释掉多行
多行注释，使用英文状态下的输入法输入在注释首部使用右斜杠和一星号，同时，在注释尾部使用一星号和右斜杠表明即可，示例：* ------------------*单行注释，使用英文状态下的输入法输入两斜杠即可，示例：-------
哈尔滨Java培训学校哪家好，学多久
哈尔滨比较好的java培训学校有千锋教育、动力节点、蜗牛学院、达内、传智播客、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。大多数人学习6个月左右就可以找到一份合适的工作。千锋教育就有线上免费Java线上公开课。随
ruby是什么意思
ruby的汉语意思如下：n.红宝石深红色。adj.红宝石的红宝石色的。ruby的读音是：英 [ˈruːbi] 美 [ˈruːbi] 。ruby的造句如下：1、RDT is a far more full-featured Ru
R语言相关性分析
1. R语言自带函数cor(data, method=" ")可以快速计算出相关系数，数据类型：data.frame 如data.frame为：zz, 绘图如下：a. single protein：线性
python 中的map（转载）
1 map()函数的简介以及语法： map是python内置函数，会根据提供的函数对指定的序列做映射。 map()函数的格式是： map(function,iterable,...) 第一个参数接受一个函数名，后面的参数接受
微信小程序能开发什么语言呢？
1、支持的前端开发语言有：前端主要是用WXML、WXSS以及JavaScript来开发。本质上就是JS+CSS+HTML5，不过不能直接用HTML标签，微信提供一个组件库，没有DOM和其他浏览器上的API；网络、Canvas等也重新包装过。
Python中的“ @”（@）符号有什么作用？
【@】符号在python中是装饰器的意思。装饰器对一个可调用对象（函数、方法、类等等）进行装饰，它返回的也是一个可调用对象。一般情况下，装饰器是对被装饰对象的修饰与增强。用现实事物类比的话，可以类比为中间商：中间商不生产产品，它将工厂生产的
go语言可以做什么
1、服务器编程：以前你如果使用C或者C++做的那些事情，用Go来做很合适，例如处理日志、数据打包、虚拟机处理、文件系统等。2、分布式系统、数据库代理器、中间件：例如Etcd。3、网络编程：这一块目前应用最广，包括Web应用、API应用、
高级的英文名有哪些？
曾经，我听说每个人的微信好友列表，都能找到一个昵称叫Serendipity的朋友。当时年少轻狂的我，一直对此嗤之以鼻，搜完之后，好神奇啊！I'm so haipa！你也快去试试，真的很神奇！Serendipity不常见，但是寓
java的基础知识有哪些
JavaEE基础中包含的知识点有：Java基础语法、面向对象、核心类库、集合、异常、IO、线程、JDK新特性。JavaWeb开发中包含的知识点有：前端技术、数据库、JAVA数据库操作、软件服务器及服务器相关技术、动态网页JSP、AJAX、优
如何使用R语言删除一行数据
1、首先需要打开R studio，新建文件脚本，【File】——【New Script】。2、然后会发现，global environment这里之前代码留下的数据集非常麻烦，清除方法如下：3、首先，写入 rm(A),即可清除相应objec
10道经典的C语言例题(含参考程序)
1.打印出所有的“水仙花数”，所谓“水仙花数”是指一个三位数，其各位数字立方和等于该数本身。例如，153是一个“水仙花数”，因为153=1^3+5^3+3^3。#include #include int
Go语言怎么样？
根据Go趋势报告显示，全球范围内有 110 万专业开发者选择Go作为其主要开发语言。如果把以其他编程语言作为主要开发语言，同时也在使用Go的开发者计算在内，这一数字将高达270万，中国的Go语言开发者排名第一，全球占比超过16%。Go 语
R语言没有car的程序包，怎么办？
两个办法：1. 安装‘minqa’包，在R的命令行界面打入“install.packages(‘minqa’)”.2. 如果上面方法不行，卸载‘car’，并且重新安装。有可能早先安装这个包的方法不对。或者可以选择重新下载R语言软件包下载
go语言到底有什么好处
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
Go语言和其他语言的不同之基本语法
Go语言作为出现比较晚的一门编程语言，在其原生支持高并发、云原生等领域的优秀表现，像目前比较流行的容器编排技术Kubernetes、容器技术Docker都是用Go语言写的，像Java等其他面向对象的语言，虽然也能做云原生相关的开发，但是
goland map底层原理
map 是Go语言中基础的数据结构，在日常的使用中经常被用到。但是它底层是如何实现的呢？总体来说golang的map是hashmap，是使用数组+链表的形式实现的，使用拉链法消除hash冲突。 golang的map由两种重要的结构
0在c语言是什么意思？
字符0’对应的ASCII码是48，48对应的十六进制数就是0x30。通常我们在编程的时候，用字符转化为数字的时候经常要用到，比如要将‘8’转换为数字8，在语句中这样写就可以了， 8+0’。这里的8就是数字。c语言是一门面向过程、抽象
Python 基本操作- 数据选取loc、iloc、ix函数
loc中的数据是列名，是字符串，所以前后都要取；iloc中数据是int整型，所以是Python默认的前闭后开构建数据集dfloc函数主要通过行标签索引行数据，划重点，标签！标签！标签！loc[1]选择行标签是1的
java课程设计创意小游戏
① 求Java课程设计—小游戏(含源代码)hi.srxboysitem8ce4743da1adc991c2cf29c4Tank——坦克大战（简洁版）源代码-------（此文档是自己在韩顺平教程总结而来）*功能:1.防止敌
4.1 Go语言中包(Packages)基础知识
先看一下目录结构，注意这里的src名称是必须的，go在设置了GOPATH后，默认会添加src去寻找package，暂未查询是否有方法不按照src查询根据上面的描述，Go语言中通过包中函数的名称来区分公共函数和私有函数，我们在m
R语言基础知识笔记
1、向量是用于存储数值型，字符型或者逻辑型数据的一维数组。执行组合功能的函数为c()，可以用来创建向量。向量可根据位置进行索引，需要用[]。 2、矩阵是一个二维数组，每个元素都拥有相同的模式，可通过函数matrix()创建矩阵。 3
R语言进行文本挖掘
介绍使用tidytext进行文本挖掘。整洁的数据应该是这样的对于整洁的文本数据，储存在每行中的数据通常是单个单词，但也可以是n-gram，句子或段落。使用unnest_tokens函数对数据进行处理简单介绍一下unn

推荐阅读

热门文章

最新发布

标签列表

python爬取网页内容数据需要建文件夹吗

给您推荐相同类型的内容：