最新发布

# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
鸿蒙系统在线铃声免费吗
鸿蒙系统在线铃声部分是免费的。鸿蒙系统上有一些在线铃声是免费的，但不是所有都是免费的，毕竟运营商还是要赚钱的，如果不想付费可以在一些免费的资源里寻找一个自己最喜欢的，愿意的话可以找自己喜欢的铃声付费，付费的铃声还是比较丰富的，可以选择的很多
# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
harmonyos忘记密码如何解锁？
如果您确认遗忘自己的手机密码需要解锁，我们可以帮助您将手机强制恢复出厂设置。但是手机中的数据也会被清除，且无法恢复，建议您再回忆一下是否通过云备份或其他方式备份过手机数据。也建议您再仔细回忆一下是否自己设置修改了密码，如果确定无法回忆起密
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A
# 2023-02-09
华为的鸿蒙系统是是什么语言开发的？
根据华为公布的方舟编译器资料，可以得知鸿蒙系统是用C、C++语言编写。鸿蒙系统和方舟编译器的思路是一样：直接使用机器语言编写app，取消安卓系统的ART虚拟机，直接编译为二进制机器码；这样的好处是：不需要中转，执行速度快；劣势是：必须要
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
HarmonyOS赋能HUAWEI WATCH 3系列：隐私安全再升级
当前智能可穿戴设备已经慢慢渗透到我们的生活当中，有更多人愿意借助可穿戴设备来监测身体的各项数据与指标，从而更好的保护自己的身体。而华为作为可穿戴设备的头部厂商，凭借优质的硬件，丰富的软件及生态服务，受到了广大消费者的青睐。根据IDC《中国
# 2023-02-09
LIO一AN00是怎样截滚动长屏？
一、使用隔空手势截取屏幕1.进入设置 &gt辅助功能 &gt智慧感知 &gt隔空截屏，确保隔空截屏开关已开启。2.将手掌朝向屏幕，放在在距离屏幕半臂的位置稍作停顿，待屏幕上方出现后小手后，握拳截屏。二、指关节截取屏

python3 怎么爬取新闻网站

2023-02-24 19:40:01Python025

python3 怎么爬取新闻网站,第1张

1 #coding=utf-8

2 import re # 正则表达式

3 import bs4 # Beautiful Soup 4 解析模块

4 import urllib2 # 网络访问模块

5 import News #自己定义的新闻结构

6 import codecs #解决编码问题的关键，使用codecs.open打开文件

7 import sys #1解决不同页面编码问题

8

9 reload(sys) # 2

10 sys.setdefaultencoding('utf-8') # 3

11

12 # 从首页获取所有链接

13 def GetAllUrl(home):

14 html = urllib2.urlopen(home).read().decode('utf8')

15 soup = bs4.BeautifulSoup(html, 'html.parser')

16 pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'

17 links = soup.find_all('a', href=re.compile(pattern))

18 for link in links:

19 url_set.add(link['href'])

20

21 def GetNews(url):

22 global NewsCount,MaxNewsCount #全局记录新闻数量

23 while len(url_set) != 0:

24 try:

25 # 获取链接

26 url = url_set.pop()

27 url_old.add(url)

28

29 # 获取代码

30 html = urllib2.urlopen(url).read().decode('utf8')

31

32 # 解析

33 soup = bs4.BeautifulSoup(html, 'html.parser')

34 pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+' # 链接匹配规则

35 links = soup.find_all('a', href=re.compile(pattern))

36

37 # 获取URL

38 for link in links:

39 if link['href'] not in url_old:

40 url_set.add(link['href'])

41

42 # 获取信息

43 article = News.News()

44 article.url = url # URL信息

45 page = soup.find('div', {'id': 'page'})

46 article.title = page.find('h1').get_text() # 标题信息

47 info = page.find('div', {'class': 'article-info'})

48 article.author = info.find('a', {'class': 'name'}).get_text() # 作者信息

49 article.date = info.find('span', {'class': 'time'}).get_text() # 日期信息

50 article.about = page.find('blockquote').get_text()

51 pnode = page.find('div', {'class': 'article-detail'}).find_all('p')

52 article.content = ''

53 for node in pnode: # 获取文章段落

54 article.content += node.get_text() + '\n' # 追加段落信息

55

56 SaveNews(article)

57

58 print NewsCount

59 break

60 except Exception as e:

61 print(e)

62 continue

63 else:

64 print(article.title)

65 NewsCount+=1

66 finally:

67 # 判断数据是否收集完成

68 if NewsCount == MaxNewsCount:

69 break

70

71 def SaveNews(Object):

72 file.write("【"+Object.title+"】"+"\t")

73 file.write(Object.author+"\t"+Object.date+"\n")

74 file.write(Object.content+"\n"+"\n")

75

76 url_set = set() # url集合

77 url_old = set() # 爬过的url集合

78

79 NewsCount = 0

80 MaxNewsCount=3

81

82 home = 'http://baijia.baidu.com/' # 起始位置

83

84 GetAllUrl(home)

85

86 file=codecs.open("D:\\test.txt","a+") #文件操作

87

88 for url in url_set:

89 GetNews(url)

90 # 判断数据是否收集完成

91 if NewsCount == MaxNewsCount:

92 break

93

94 file.close()

复制代码

新闻文章结构

复制代码

1 #coding: utf-8

2 # 文章类定义

3 class News(object):

4 def __init__(self):

5 self.url = None

6 self.title = None

7 self.author = None

8 self.date = None

9 self.about = None

10 self.content = None

可以使用python里面的一个爬虫库，beautifulsoup，这个库可以很方便的爬取数据。爬虫首先就得知道网页的链接，然后获取网页的源代码，通过正则表达式或者其他方法来获取所需要的内容，具体还是要对着网页源代码进行操作，查看需要哪些地方的数据，然后通过beautifulsoup来爬取特定html标签的内容。网上有很多相关的内容，可以看看。

信息链接数据爬虫代码

# 上一篇：golang request.go中PostForm和Form区别

# 下一篇：R语言数据结构-数据框&矩阵&列表