python 爬虫怎么过滤正文以外的

2023-02-25 19:20:01Python019

python 爬虫怎么过滤正文以外的,第1张

利用bs4查找所有的div，用正则筛选出每个div里面的中文，找到中文字数最多的div就是属于正文的div了。定义一个抓取的头部抓取网页内容：

import requests

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',

'Host': 'blog.csdn.net'}

session = requests.session()

def getHtmlByRequests(url):

headers.update(

dict(Referer=url, Accept="*/*", Connection="keep-alive"))

htmlContent = session.get(url=url, headers=headers).content

return htmlContent.decode("utf-8", "ignore")

统计文字的正则：

import re

# 统计中文字数

def countContent(string):

pattern = re.compile(u'[\u1100-\uFFFD]+?')

content = pattern.findall(string)

return content

查找每一个div，统计每一个div的文字，只保留文字最多的那个div：

# 分析页面信息

def analyzeHtml(html):

# 初始化网页

soup = BeautifulSoup(html, "html.parser")

part = soup.select('div')

match = ""

for paragraph in part:

content = countContent(str(paragraph))

if len(content) > len(match):

match = str(paragraph)

return match

最后的调用几个函数即可：

def main():

url = "http://blog.csdn.net/"

html = getHtmlByRequests(url)

mainContent = analyzeHtml(html)

soup = BeautifulSoup(mainContent, "html.parser")

print(soup.select('div')[0].text)

单章的部分应该没问题，去目录页爬下章节链接存列表里遍历爬取就行了吧。

另外通常手机版站点的反爬会弱一些，有没有考虑爬手机站？

github、csdn、博客园等等站会有相关的博文涉及相关爬虫和源码，去参考一下也好。

还解决不了的话先把“全部正文，不知道咋回事目录都爬不下来”的情况说的更详细一点。

中文最多爬虫正则文字

# 上一篇：c语言中for语句的用法及规则是什么？

# 下一篇：go语言开发为什么难找工作

给您推荐相同类型的内容：

c语言输出函数中为什么a[2]表示一个元素
如果 a 是一维数组，则语句和表达式中的 a[2] 表示数组的一个元素。数组的下标从0起算，a[2] 则是第三个元素。a[2] 也可以表示成指针指向的值的形式 *(a+2)。例如：int a[]={1,2,3,4,5}printf(&
GO语言（三十）：访问关系型数据库（上）
本教程介绍了使用 Godatabasesql及其标准库中的包访问关系数据库的基础知识。您将使用的databasesql包包括用于连接数据库、执行事务、取消正在进行的操作等的类型和函数。在本教程中，您将创建一个数据
go语言开发为什么难找工作
Go语言的工作需求量不大，所以工作比较难找。目前仅凭Go语言不好找工作，一是因为圈子不大，需求量也不大，二是即使工作需Go，也不是仅凭Go就可以，更重要的是其他的，比如云平台开发经验这些Go的应用能力。随着Go语言越来越成熟，很多大厂还是有
a在c语言中是什么意思?
它没有特别的含义，就是一个普通的变量名或者是一个字符常量。变量可以通过变量名访问。在指令式语言中，变量通常是可变的；但在纯函数式语言（如Haskell）中，变量可能是不可变的。在c语言里面a就是个变量。注意a-=a的意思为a=a-a，先
学python要多久
学python一般需要4个月-6个月。初级Python掌握阶段学习时间：如果是零基础选择自学，这个期间主要学习的内容是常量、变量的应用，运算符的了解和使用、流程控制的使用等，掌握【Python编程语言】基础内容、OOP基础知识，学习后应该
英语双元音的发音规则
英语单词拼读规则表一、元音字母在重读音节中的读音元音字母读音例词编号 a 在开音节中 [ei] name plane Jane baby cake 1-01 在闭音节中 [æ] bag dad hat map black b
淘宝12亿条客户信息遭爬取，黑客非法获利34万，客户信息是如何泄露的？
近些日子，一则“淘宝12亿条客户信息遭爬取，黑客非法获利34万”的问题，引发了广大网友们的热议，在网上闹的沸沸扬扬。那么，客户的信息是如何泄漏的呢？这个黑客使用了python的爬虫技术，爬出了淘宝的信息。然后这个黑客把这些拿到的信息，都拿去
GO语言（十六）：模糊测试入门（上）
本教程介绍了 Go 中模糊测试的基础知识。通过模糊测试，随机数据会针对您的测试运行，以尝试找出漏洞或导致崩溃的输入。可以通过模糊测试发现的一些漏洞示例包括 SQL 注入、缓冲区溢出、拒绝服务和跨站点脚本攻击。在本教程中，您将为一个
候补购票和抢票软件能同时用吗？
候补购票和抢票软件不能同时用。候补购票开始之后，在抢票软件也是有记录的。“候补购票”功能的出现，将在一定程度上缓解旅客抢票难的问题。首先，它有望解决售票平台和旅客之间诉求不对称的问题。以往，会出现有退票无人买、有人买无退票的情况。“候补
python列名称有中文括号怎么读取
一、萌新语法输入和输出print()#打印括号的内容#第一种：不带引号，让计算机读懂括号里的内容，打印最终的结果&gt&gt&gtprint(1+1)#第二种：带单引号，计算机无须理解，原样复述引号中的内容&
go语言--Goroutines
1、goroutine：在go语言中，每一个并发的执行单元叫做goroutine，如果一个程序中包含多个goroutine，对两个函数的调用则可能发生在同一时刻 2、main goroutine：当一个程序启动时，其主函数即在一个单独的
有没有金希澈的这个视频，要在线的~
亲，我也是庚澈迷哦~~~(*^__^*) 嘻嘻……http:www.tudou.comprogramsview4u0D8JUBk8g好玩啊http:www.tudou.comprogramsview7leFV25iY8
c语言怎么给xml文件数组赋值
1、通过循环的形式，即：数组名[下标]，对数组的元素进行依次赋值。2、通过循环的形式数组名+下标对数组的元素进行依次赋值。3、通过循环的形式利用指针对数组的元素进行依次赋值。把所有的数据当做一个字符串收到数据后先strstr(buffer,
C程序设计谭浩强版本的第四版和第三版有什么区别
一、指代不同1、C程序设计谭浩强版本的第四版：是2010年清华大学出版社出版的图书，作者是谭浩强。2、C程序设计谭浩强版本的第三版：被普遍认为是学习C语言的好教材，并被全国大多数高校选用。二、特点不同1、C程序设计谭浩强版本的第四版
C语言树的生成和遍历
#include 头文件#include typedef struct BiTNode{char datastruct BiTNode *lchild,*rchild} BiTNode,*BiTree定义结点类型BiTree Cre
c语言如何实现一棵二叉树的遍历
今天我也遇到这道题了，经过我的研究，我觉得应该是如下的解答：首先画出该树：如下图左边所示。然后根据树的二叉链表表示法表示存储结构如图右边所示：注意这里的指针域为左边表示第一个孩子*firstchild，右边表示兄弟*nextsibli
python中可用什么函数将一个对象转换成元组？
用tuple()。刚开始学没有接触到面向对象，暂时把list，tuple等理解成函数，其实list，tuple这些是类，因为print(tuple)输出的是&ltclass 'tuple'&gt。。。使用
用Ruby编写程序首先提示line number: 键盘输入1，从文件txt读取第一行显示在屏幕;继续提示line number
txt_path = File.join(File.dirname(__FILE__), "test.txt") #此处为待读取txt文件路径，可以自行设置lines = IO.readlines(txt_path)
go语言聊天室实现（七）websocket收消息设置
上一节中，我们为每个连接都创建了一个goroutine来读取其中的消息，现在我们将这个读取消息的方法实现一下。我们在application目录下新建controllers目录，并在其中创建一个MessageController.go文
python列表的基本操作
python列表的基本操作如下：01 '''02 列表：有非常重要的地位。(list)03 [项,项...]04 '''05 list1=['zhang san
口袋妖怪蓝宝石作弊码
狩猎区狩猎球数目 02038504 xx剩余歩数 02038506 xxxx游戏弊MAX 02025928 270F火山灰MAX 02026864 1F40喷雾剂剩余歩数 02026816 xxxx购物不减金钱 0203839C 0000选
ruby什么意思？什么含义？
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言，在20世纪90年代由日本人松本行弘（まつもとゆきひろYukihiro Matsumoto）开发，遵守GPL协议和Ruby License。它的灵感与特性来自于 Pe
调试Go语言的核心转储（Core Dumps）
英文原文链接【Go, the unwritten parts】发表于20170522 作者JBD是Go语言开发小组成员检查程序的执行路径和当前状态是非常有用的调试手段。核心文件（core file）包含了一个运行进程的内存
学黑客技术必须先学什么
黑客技术的学习建议：1、学习UNIXLINUXUNIXLINUX是一种安全性更高的开源操作系统，最早由AT&ampT实验室开发，并在安全界里广泛使用。不懂UNIXLINUX，不可能成为一名黑客。2、C语言编程UNIX
有趣的灵魂，发现可爱女儿小小只……
自己的女儿，怎么看都看不腻，怎么着都可爱无敌！可能许多母亲都会对自己的孩子有这种感觉：自家的孩子再无理取闹，再不美丽可爱，那在母亲的心里，却总是宝贝的，偏爱的！记得女儿还没出生时，我总一次次想象女儿会长什么样子，会是什么性格……满心
为什么go语言适合开发网游服务器端
个人觉得golang十分适合进行网游服务器端开发，写下这篇文章总结一下。从网游的角度看：要成功的运营一款网游，很大程度上依赖于玩家自发形成的社区。只有玩家自发形成一个稳定的生态系统，游戏才能持续下去，避免鬼城的出现。而这就需要多次大量导入用
Golang databasesql源码分析
Gorm是Go语言开发用的比较多的一个ORM。它的功能比较全：但是这篇文章中并不会直接看Gorm的源码，我们会先从databasesql分析。原因是Gorm也是基于这个包来封装的一些功能。所以只有先了解了databasesql
QT中调用Python
如果你是嵌入的话，应该没问题。python的库会暴露c api的，你的qt程序照着python文档中的embedded章节就好。看样子，你的是linux下的，不过一般头文件就是includepython.h,怎么会是includepy
Go 是怎么使用 Go 来编译自身的
是Go语言吗? Go 编译过程九个步骤第一步. all.bash% cd $GOROOTsrc% .all.bash第一步 all.bash 只是调用了另外两个 shell 脚本：make.bash 和run.bash。若使用 Win
c++语言与C语言相比哪个难?
语法角度来说C++比C多了一些东西，相对复杂。从使用角度，由于C++是面向对象的语言，C是面向过程的，所以C++编写起来会更加方便。另外C语言目前大多数是面向底层编程，所以需要对计算机系统有一定的了解。C语言是一门面向过程的、抽象化的通

推荐阅读

热门文章

最新发布

标签列表

python 爬虫怎么过滤正文以外的

给您推荐相同类型的内容：