爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。
10个步骤实现项目功能,下面开始实例讲解:
1.导入模块
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加头文件,防止爬取过程被拒绝链接
def qiuShi(url,page):
################### 模拟成高仿度浏览器的行为 ##############
heads ={
'Connection':'keep-alive',
'Accept-Language':'zh-CN,zhq=0.9',
'Accept':'text/html,application/xhtml+xml,application/xml
q=0.9,image/webp,image/apng, / q=0.8',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}
headall = []
for key,value in heads.items():
items = (key,value)
headall.append(items)
opener = urllib.request.build_opener()
opener.addheaders = headall
urllib.request.install_opener(opener)
data = opener.open(url).read().decode()
################## end ########################################
3.创建soup解析器对象
soup = BeautifulSoup(data,'lxml')
x = 0
4.开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
name = []
unames = soup.find_all('h2')
for uname in unames:
name.append(uname.get_text())
#################end#############################
5.提取发表的内容信息
############## 发表的内容 #########################
cont = []
data4 = soup.find_all('div',class_='content')
data4 = str(data4)
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:
cont.append(content.get_text())
##############end####################################
6.提取搞笑指数
#################搞笑指数##########################
happy = []
data2 = soup.find_all('span',class_="stats-vote")
data2 = str(data2) # 将列表转换成字符串形式才可以使用
soup1 = BeautifulSoup(data2,'lxml')
happynumbers = soup1.find_all('i',class_="number")
for happynumber in happynumbers:
happy.append(happynumber.get_text())
##################end#############################
7.提取评论数
############## 评论数 ############################
comm = []
data3 = soup.find_all('a',class_='qiushi_comments')
data3 = str(data3)
soup2 = BeautifulSoup(data3,'lxml')
comments = soup2.find_all('i',class_="number")
for comment in comments:
comm.append(comment.get_text())
############end#####################################
8.使用正则表达式提取性别和年龄
######## 获取性别和年龄 ##########################
pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'
sexages = re.compile(pattern1).findall(data)
9.设置用户所有信息输出的格局设置
################## 批量输出用户的所以个人信息 #################
print()
for sexage in sexages:
sa = sexage
print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)
print('【用户名】:',name[x],end='')
print('【性别】:',sa[0],' 【年龄】:',sa[1])
print('【内容】:',cont[x])
print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x])
print(' ' 25,' 三八分割线 ',' ' 25)
x += 1
###################end##########################
10.设置循环遍历爬取13页的用户信息
for i in range(1,14):
url = ' https://www.qiushibaike.com/8hr/page/'+str(i)+'/'
qiuShi(url,i)
运行结果,部分截图:
Python程序开发之简单小程序实例
(3)-打印99乘法口诀表
一、项目功能
在屏幕中打印格式化的九九乘法口诀表。
二、项目分析
按九九乘法口诀的运算顺序,打印的口诀表共有9行9列,第1行只有1列,第2行有2列……,第9行共有9列,如下所示:
1 1
1 2 2 2
1 3 2 3 3 3
……
……
1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 9
要按格式控制输出,需定义2个循环,其中一个循环(我们称其为外循环,在其内定义变量i)嵌套另一个循环(我们称其为内循环,在其内定义变量j),外循环(变量i)控制行,循环次数大于等于1且小于10,内循环(变量j)控制列,循环次数取决于外循环变量i的值。
三、程序源代码
#!/usr/bin/python3.6
# -*- coding: GBK -*-
print("九九乘法口诀表")
for i in range(1, 10):
print()
for j in range(1, i+1):
print ("%d*%d=%d" % (j, i, i*j), end=" " )
四、代码解释:
在程序的第一行为引用python版本,本实例为python3.6
第二行是程序编码引用,因为在程序中包含有中文字符,所以必须引用GBK,否则就会报错。
第三行为输出标题“九九乘法口诀表”
第四行至第七行为程序主体,由两个循环嵌套组成,在循环内的第五行,为一个控制行格式输出语句print(),用于换行操作。
五、运行后的输出结果
下一篇:《Python程序开发之简单小程序实例(4)》
Python程序开发之简单小程序实例
(11)小 游戏 -跳动的小球
一、项目功能
二、项目分析
根据项目功能自定义两个类,一个用于控制小球在窗体中的运动,一个用于接收用户按下左右键时,挡板在窗体中的运动。在控制小球的类中,我们还需要考虑当小球下降时,碰到挡板时的位置判断。
三、程序源代码
源码部分截图:
源码:
#!/usr/bin/python3.6
# -*- coding: GBK -*-
#导入相应模块
from tkinter import *
import random
import time
#自定义小球的类 Ball
class Ball:
# 初始化
def __init__(self,canvas,paddle,color):
#传递画布值
self.canvas=canvas
#传递挡板值
self.paddle=paddle
#画圆并且保存其ID
self.id=canvas.create_oval(10,10,25,25,fill=color)
self.canvas.move(self.id,245,100)
#小球的水平位置起始列表
start=[-3,-2,-1,1,2,3]
#随机化位置列表
random.shuffle(start)
self.x=start[0]
self.y=-2
self.canvas_heigh=self.canvas.winfo_height()#获取窗口高度并保存
self.canvas_width=self.canvas.winfo_width()
#根据参数值绘制小球
def draw(self):
self.canvas.move(self.id,self.x,self.y)
pos=self.canvas.coords(self.id)#返回相应ID代表的图形的当前坐标(左上角和右上角坐标)
#使得小球不会超出窗口
pad=self.canvas.coords(self.paddle.id)#获取小球挡板的坐标
if pos[1]=self.canvas_heigh or(pos[3]>=pad[1] and pos[2]>=pad[0] and pos[2]