python爬虫项目实战:爬取用户的所有信息,如性别、年龄等

Python012

python爬虫项目实战:爬取用户的所有信息,如性别、年龄等,第1张

python爬虫项目实战:

爬取糗事百科用户的所有信息,包括用户名、性别、年龄、内容等等。

10个步骤实现项目功能,下面开始实例讲解:

1.导入模块

import re

import urllib.request

from bs4 import BeautifulSoup

2.添加头文件,防止爬取过程被拒绝链接

def qiuShi(url,page):

################### 模拟成高仿度浏览器的行为 ##############

heads ={

'Connection':'keep-alive',

'Accept-Language':'zh-CN,zhq=0.9',

'Accept':'text/html,application/xhtml+xml,application/xml

q=0.9,image/webp,image/apng, / q=0.8',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0WOW64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

}

headall = []

for key,value in heads.items():

items = (key,value)

headall.append(items)

opener = urllib.request.build_opener()

opener.addheaders = headall

urllib.request.install_opener(opener)

data = opener.open(url).read().decode()

################## end ########################################

3.创建soup解析器对象

soup = BeautifulSoup(data,'lxml')

x = 0

4.开始使用BeautifulSoup4解析器提取用户名信息

############### 获取用户名 ########################

name = []

unames = soup.find_all('h2')

for uname in unames:

name.append(uname.get_text())

#################end#############################

5.提取发表的内容信息

############## 发表的内容 #########################

cont = []

data4 = soup.find_all('div',class_='content')

data4 = str(data4)

soup3 = BeautifulSoup(data4,'lxml')

contents = soup3.find_all('span')

for content in contents:

cont.append(content.get_text())

##############end####################################

6.提取搞笑指数

#################搞笑指数##########################

happy = []

data2 = soup.find_all('span',class_="stats-vote")

data2 = str(data2) # 将列表转换成字符串形式才可以使用

soup1 = BeautifulSoup(data2,'lxml')

happynumbers = soup1.find_all('i',class_="number")

for happynumber in happynumbers:

happy.append(happynumber.get_text())

##################end#############################

7.提取评论数

############## 评论数 ############################

comm = []

data3 = soup.find_all('a',class_='qiushi_comments')

data3 = str(data3)

soup2 = BeautifulSoup(data3,'lxml')

comments = soup2.find_all('i',class_="number")

for comment in comments:

comm.append(comment.get_text())

############end#####################################

8.使用正则表达式提取性别和年龄

######## 获取性别和年龄 ##########################

pattern1 = '<div class="articleGender (w ?)Icon">(d ?)</div>'

sexages = re.compile(pattern1).findall(data)

9.设置用户所有信息输出的格局设置

################## 批量输出用户的所以个人信息 #################

print()

for sexage in sexages:

sa = sexage

print(' ' 17, '= = 第', page, '页-第', str(x+1) + '个用户 = = ',' ' 17)

print('【用户名】:',name[x],end='')

print('【性别】:',sa[0],' 【年龄】:',sa[1])

print('【内容】:',cont[x])

print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x])

print(' ' 25,' 三八分割线 ',' ' 25)

x += 1

###################end##########################

10.设置循环遍历爬取13页的用户信息

for i in range(1,14):

url = ' https://www.qiushibaike.com/8hr/page/'+str(i)+'/'

qiuShi(url,i)

运行结果,部分截图:

Python程序开发之简单小程序实例

(3)-打印99乘法口诀表

一、项目功能

在屏幕中打印格式化的九九乘法口诀表。

二、项目分析

按九九乘法口诀的运算顺序,打印的口诀表共有9行9列,第1行只有1列,第2行有2列……,第9行共有9列,如下所示:

1 1

1 2 2 2

1 3 2 3 3 3

……

……

1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 9

要按格式控制输出,需定义2个循环,其中一个循环(我们称其为外循环,在其内定义变量i)嵌套另一个循环(我们称其为内循环,在其内定义变量j),外循环(变量i)控制行,循环次数大于等于1且小于10,内循环(变量j)控制列,循环次数取决于外循环变量i的值。

三、程序源代码

#!/usr/bin/python3.6

# -*- coding: GBK -*-

print("九九乘法口诀表")

for i in range(1, 10):

print()

for j in range(1, i+1):

print ("%d*%d=%d" % (j, i, i*j), end=" " )

四、代码解释:

在程序的第一行为引用python版本,本实例为python3.6

第二行是程序编码引用,因为在程序中包含有中文字符,所以必须引用GBK,否则就会报错。

第三行为输出标题“九九乘法口诀表”

第四行至第七行为程序主体,由两个循环嵌套组成,在循环内的第五行,为一个控制行格式输出语句print(),用于换行操作。

五、运行后的输出结果

下一篇:《Python程序开发之简单小程序实例(4)》

Python程序开发之简单小程序实例

(11)小 游戏 -跳动的小球

一、项目功能

用户控制挡板来阻挡跳动的小球

二、项目分析

根据项目功能自定义两个类,一个用于控制小球在窗体中的运动,一个用于接收用户按下左右键时,挡板在窗体中的运动。在控制小球的类中,我们还需要考虑当小球下降时,碰到挡板时的位置判断。

三、程序源代码

源码部分截图:

源码:

#!/usr/bin/python3.6

# -*- coding: GBK -*-

#导入相应模块

from tkinter import *

import random

import time

#自定义小球的类 Ball

class Ball:

# 初始化

def __init__(self,canvas,paddle,color):

#传递画布值

self.canvas=canvas

#传递挡板值

self.paddle=paddle

#画圆并且保存其ID

self.id=canvas.create_oval(10,10,25,25,fill=color)

self.canvas.move(self.id,245,100)

#小球的水平位置起始列表

start=[-3,-2,-1,1,2,3]

#随机化位置列表

random.shuffle(start)

self.x=start[0]

self.y=-2

self.canvas_heigh=self.canvas.winfo_height()#获取窗口高度并保存

self.canvas_width=self.canvas.winfo_width()

#根据参数值绘制小球

def draw(self):

self.canvas.move(self.id,self.x,self.y)

pos=self.canvas.coords(self.id)#返回相应ID代表的图形的当前坐标(左上角和右上角坐标)

#使得小球不会超出窗口

pad=self.canvas.coords(self.paddle.id)#获取小球挡板的坐标

if pos[1]=self.canvas_heigh or(pos[3]>=pad[1] and pos[2]>=pad[0] and pos[2]