最新发布

# 2023-02-09
创维电视能不能升级鸿蒙系统
创维电视不能升级鸿蒙系统目前只有华为智慧屏和荣耀智慧屏搭载了鸿蒙系统，而鸿蒙系统刚刚正式发布，创维还没有正式加入鸿蒙阵营，短期内不会为创维电视适配鸿蒙系统，所以目前创维电视是无法升级鸿蒙系统的。由于鸿蒙系统是完全开源的系统，基于安卓系统的智
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
华为首款三分频智能音箱，HarmonyOS家族的颜值与音质担当
HUAWEI Sound X系列从2019年正式推出之后，便备受用户好评。第一代HUAWEI Sound X与帝瓦雷联合设计，在智能音箱当时大多处于功能性的大环境下，第一代HUAWEI Sound X让用户体验到了智慧与音质并
# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
华为怎么取消harmony系统
harmonyOS系统是可以退出的。HarmonyOS版本可以通过华为手机助手回退到EMUI 11.0官方稳定版本。注意事项：1. 请确保当前使用的是华为官方版本，且为HarmonyOS版本，并且未进行任何非官方版本
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
华为harmonyos 3有哪些特性?
华为harmonyos 3的特性：1、HarmonyOS 3体验更安全、更流畅HarmonyOS3系统会进一步打通各个设备之间的协同性，并且在系统性能表现和隐私安全上有所加强。HarmonyOS 3在安全性方面，新增了剪切板隐私保护、模糊

如何用Python爬虫抓取网页内容?

2023-02-22 16:24:02Python09

如何用Python爬虫抓取网页内容?,第1张

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

<Response [200]>

<class 'requests.models.Response'>

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能，此文中所有的功能都是基于BeautifulSoup这个包。

1 Pyhton获取网页的内容(也就是源代码)

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码 print(contents)

url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容)

1、网络爬虫基本原理

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定

停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根

据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

2、设计基本思路

正如你所说，先到微博登陆页面模拟登录，抓取页面，从页面中找出所有URL，选择满足要求的URL文本说明，模拟点击这些URL，重复上面的抓取动作，直到满足要求退出。

3、现有的项目

google project网站有一个项目叫做sinawler，就是专门的新浪微博爬虫，用来抓取微博内容。网站上不去，这个你懂的。不过可以百度一下“python编写的新浪微博爬虫（现在的登陆方法见新的一则微博）“，可以找到一个参考的源码，他是用python2写的。如果用python3写，其实可以使用urllib.request模拟构建一个带cookies的浏览器，省去对cookies的处理，代码可以更加简短。

4、此外

看下网络爬虫的百度百科，里面很多比较深入的内容，比如算法分析、策略体系，会大有帮助，从理论角度提升代码的技术层次。

爬虫网页源代码内容队列

# 上一篇：java如何获取当前时间年月日时分秒

# 下一篇：go语言有没有类似tp5框架