python如何读取网页中的数据

Python019

python如何读取网页中的数据,第1张

用Beautiful Soup这类解析模块:

Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree);

它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作;

用urllib或者urllib2(推荐)将页面的html代码下载后,用beautifulsoup解析该html;

然后用beautifulsoup的查找模块或者正则匹配将你想获得的内容找出来,就可以进行相关处理了,例如:

from BeautifulSoup import BeautifulSoup

html = '<html><head><title>test</title></head><body><p>test body</p></body></html>'

soup = BeautifulSoup(html)

soup.contents[0].name

# u'html'

soup.comtents[0].contents[0].name

# u'head'

head = soup.comtents[0].contents[0]

head.parent.name

# u'html'

head.next

# u'<title>test</title>

其实你只需要在tkinter嵌入外部浏览器软件即可,使用aardio语言创建浏览器(有示例),再嵌入到tkinter窗口中。

具体参考这篇文章

现在可以使用tkwebview2了,使用WebView2在tkinter中显示网页

最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:

import

urllib,re

url

=

"http://www.163.com"

#网页地址

wp

=

urllib.urlopen(url)

#打开连接

content

=

wp.read()

#获取页面内容

m

=

re.match(r"^你的单词$",

content)

len(m)

m就是匹配到所有单词的列表,len(m)就是该单词的个数了