最新发布

# 2023-02-09
鸿蒙系统在线铃声免费吗
鸿蒙系统在线铃声部分是免费的。鸿蒙系统上有一些在线铃声是免费的，但不是所有都是免费的，毕竟运营商还是要赚钱的，如果不想付费可以在一些免费的资源里寻找一个自己最喜欢的，愿意的话可以找自己喜欢的铃声付费，付费的铃声还是比较丰富的，可以选择的很多
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
harmonyos是什么系统
华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多种智能终端实现极速发现、极速连接、硬件互助、资源共享，用合适的设
# 2023-02-09
创维电视能不能升级鸿蒙系统
创维电视不能升级鸿蒙系统目前只有华为智慧屏和荣耀智慧屏搭载了鸿蒙系统，而鸿蒙系统刚刚正式发布，创维还没有正式加入鸿蒙阵营，短期内不会为创维电视适配鸿蒙系统，所以目前创维电视是无法升级鸿蒙系统的。由于鸿蒙系统是完全开源的系统，基于安卓系统的智
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
harmonyos2.0.0系统好用吗
harmonyos2.0.0系统好用。对于HarmonyOS 2.0系统，最大的感受就是流畅。此前有很多用户担心从EMUI系统过渡到鸿蒙系统会不适应，其实HarmonyOS 2.0系统真的会让用户用了以后爱不释手。不管是服务卡片还是动画过
# 2023-02-09
华为的鸿蒙系统是是什么语言开发的？
根据华为公布的方舟编译器资料，可以得知鸿蒙系统是用C、C++语言编写。鸿蒙系统和方舟编译器的思路是一样：直接使用机器语言编写app，取消安卓系统的ART虚拟机，直接编译为二进制机器码；这样的好处是：不需要中转，执行速度快；劣势是：必须要
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本

python3 怎么爬取新闻网站

2023-02-23 03:46:02Python09

python3 怎么爬取新闻网站,第1张

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块： import re # 正则表达式

import bs4 # Beautiful Soup 4 解析模块

import urllib2 # 网络访问模块

import News #自己定义的新闻结构

import codecs #解决编码问题的关键，使用codecs.open打开文件

import sys #1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

#coding=utf-8

import re # 正则表达式

import bs4 # Beautiful Soup 4 解析模块

import urllib2 # 网络访问模块

import News #自己定义的新闻结构

import codecs #解决编码问题的关键，使用codecs.open打开文件

import sys #1解决不同页面编码问题

reload(sys) # 2

sys.setdefaultencoding('utf-8') # 3

# 从首页获取所有链接

def GetAllUrl(home):

html = urllib2.urlopen(home).read().decode('utf8')

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'

links = soup.find_all('a', href=re.compile(pattern))

for link in links:

url_set.add(link['href'])

def GetNews(url):

global NewsCount,MaxNewsCount #全局记录新闻数量

while len(url_set) != 0:

try:

# 获取链接

url = url_set.pop()

url_old.add(url)

# 获取代码

html = urllib2.urlopen(url).read().decode('utf8')

# 解析

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+' # 链接匹配规则

links = soup.find_all('a', href=re.compile(pattern))

# 获取URL

for link in links:

if link['href'] not in url_old:

url_set.add(link['href'])

# 获取信息

article = News.News()

article.url = url # URL信息

page = soup.find('div', {'id': 'page'})

article.title = page.find('h1').get_text() # 标题信息

info = page.find('div', {'class': 'article-info'})

article.author = info.find('a', {'class': 'name'}).get_text() # 作者信息

article.date = info.find('span', {'class': 'time'}).get_text() # 日期信息

article.about = page.find('blockquote').get_text()

pnode = page.find('div', {'class': 'article-detail'}).find_all('p')

article.content = ''

for node in pnode: # 获取文章段落

article.content += node.get_text() + '\n' # 追加段落信息

SaveNews(article)

print NewsCount

break

except Exception as e:

print(e)

continue

else:

print(article.title)

NewsCount+=1

finally:

# 判断数据是否收集完成

if NewsCount == MaxNewsCount:

break

def SaveNews(Object):

file.write("【"+Object.title+"】"+"\t")

file.write(Object.author+"\t"+Object.date+"\n")

file.write(Object.content+"\n"+"\n")

url_set = set() # url集合

url_old = set() # 爬过的url集合

NewsCount = 0

MaxNewsCount=3

home = 'http://baijia.baidu.com/' # 起始位置

GetAllUrl(home)

file=codecs.open("D:\\test.txt","a+") #文件操作

for url in url_set:

GetNews(url)

# 判断数据是否收集完成

if NewsCount == MaxNewsCount:

break

file.close()

新闻文章结构

#coding: utf-8

# 文章类定义

class News(object):

def __init__(self):

self.url = None

self.title = None

self.author = None

self.date = None

self.about = None

self.content = None

对爬取的文章数量就行统计。

可以使用python里面的一个爬虫库，beautifulsoup，这个库可以很方便的爬取数据。爬虫首先就得知道网页的链接，然后获取网页的源代码，通过正则表达式或者其他方法来获取所需要的内容，具体还是要对着网页源代码进行操作，查看需要哪些地方的数据，然后通过beautifulsoup来爬取特定html标签的内容。网上有很多相关的内容，可以看看。

模块信息新闻链接内容

# 上一篇：在java中什么可以采用键值对的形式保存对象

# 下一篇：学习go语言，用什么IDE比较好