怎么用python解析网页，并提取出与标题相关的正文

2023-02-26 04:34:02Python018

怎么用python解析网页，并提取出与标题相关的正文,第1张

可以使用正则表达式或者xpath方式，下面这个免费教程是说明怎么用正则表达式来取得你要的东西的，供参考。

http://www.chuanke.com/v4500746-186400-1033307.html

代码

我们在Jupyter Notebook中新建一个Python 2笔记本，起名为topic-model。

为了处理表格数据，我们依然使用数据框工具Pandas。先调用它。

import pandas as pd

然后读入我们的数据文件datascience.csv，注意它的编码是中文GB18030，不是Pandas默认设置的编码，所以此处需要显式指定编码类型，以免出现乱码错误。

df = pd.read_csv("datascience.csv", encoding='gb18030')

我们来看看数据框的头几行，以确认读取是否正确。

df.head()

显示结果如下：

没问题，头几行内容所有列都正确读入，文字显式正常。我们看看数据框的长度，以确认数据是否读取完整。

df.shape

执行的结果为：

(1024, 3)

行列数都与我们爬取到的数量一致，通过。

下面我们需要做一件重要工作——分词。这是因为我们需要提取每篇文章的关键词。而中文本身并不使用空格在单词间划分。

我们首先调用jieba分词包。

import jieba

我们此次需要处理的，不是单一文本数据，而是1000多条文本数据，因此我们需要把这项工作并行化。这就需要首先编写一个函数，处理单一文本的分词。

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

有了这个函数之后，我们就可以不断调用它来批量处理数据框里面的全部文本（正文）信息了。你当然可以自己写个循环来做这项工作。

下面这一段代码执行起来，可能需要一小段时间。请耐心等候。

df["content_cutted"] = df.content.apply(chinese_word_cut)

执行过程中可能会出现如下提示。没关系，忽略就好。

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache

Loading model cost 0.406 seconds.

Prefix dict has been built succesfully.

执行完毕之后，我们需要查看一下，文本是否已经被正确分词。

df.content_cutted.head()

数据分词文本中文几行

# 上一篇：HTC型号，看补充

# 下一篇：c语言入门自学书籍都有哪些？

给您推荐相同类型的内容：

ubuntu 怎么运行ruby代码
第一步——用RVM安装Ruby 在开始之前，我们需要在VPS上运行一次快速更新，确保所有的包都是最新的： sudo apt-get update 更新完毕之后，我们可以开始安装RVM(Ruby Version Manager). 这是个让我
c语言s={1,2,3}什么意思
c语言s={1，2，3}意思是数组s内有3个数：1、2和3。C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效
Python处理Excel效率高十倍(下篇)通篇硬干货，再也不用加班啦
《用Python处理Excel表格》下篇来啦！身为工作党或学生党的你，平日里肯定少不了与Excel表格打交道的机会。当你用Excel处理较多数据时，还在使用最原始的人工操作吗？现在教你如何用Python处理Excel，从此处理表格再也
C语言中数字后面加个大写字母U是什么意思?
加个大写字母U意思是无符号整型。在对应的带符号整型前面加上unsigned，也就是unsigned int、unsigned short、unsigned long、unsigned long long。其中unsigned int可以直
魔法少女奈叶A's中各个人物介绍
简介:雅梅罗马拼音:羽丘芽美声优:性别:女年龄:16岁生日:9月29日星座:天秤座血型:O型身高:153cm体重:43kg职业:学生其他身份:圣尾(圣女)喜欢的颜色:天蓝色、蓝色、粉色喜欢的科目:运动不喜欢的科目:数学喜欢的食物:蛋糕、雪雪
python的正则表达式
1,正则表达式的一些内容正则表达式主要是用来匹配文本中需要查找的内容,例如在一片文章中找出电话号码,就中国的来说11位纯数字(不说座机),则使用"d{11}" 意味匹配数字11次,就能准
C语言字符常量？
字符常量是由一对单撇号括起来的单个字符，如 'a'、'D'、'？'、'$'。在 C 语言中，除了字符常量外还有字符串常量，顾名思义就是多个“字符”串在一起。与字
C语言中static函数的具体作用是什么？
C语言中static函数的具体作用是：让一个变量长期有效，而不管其是在什么地方被申明。避免多个文件使用了相同的变量名而导致冲突。C语言里面的静态函数和函数的区别是：静态函数是函数的一种，函数包括静态函数和非静态函数两种。静态函数是有st
c语言中if语句的嵌套怎么使用
先判断第一层，如果符合，再判断内嵌第二层，以此类推。比如：if (a&gt0)if(a&gt3) printf("hello")else if((a&gt0)&amp&amp(a&
ruby 数组中的元素是hash，改变一个元素的hash值，为什么所有元素的hash都会改变
终于明白你的意思了。这不是 hash 的问题，是 Array.new 的用法不对，你这样做是指用｛｝这个对象填充3遍，就是说是同一个对象填充了3次，所以无论你修改哪一个对象，其它的都会跟着变，因为是同一对象。http:www.ruby-
使用python获取网站域名信息
功能：使用python获取网站域名信息适用版本Python2 or Python3：模块python-whois安装包地址：https:pypi.python.orgpypipython-whois 教程地址：https:
C语言里面i 和 i有什么区别，不是很理解。
前者本次运算为原值后者本次加一运算先用再加先加再用前自增和后自增吧i是先使用i，用完以后再对i进行1；i是先对i进行1，然后在使用i例如：i=3a=i与i=3b=i得到的结果分别是：a=3和b=4前置自加返回的是加1后的值,所以返回对象本身
用c语言编一些小游戏用什么软件？
是不是graphics.h头文件找不到？这个头文件里的图形函数就都用不了，因为CFREE没有这个头文件，哪怕你拷过去一个也不行。要是非要用图形函数，用WIN-TC可以，不过这个编译器确实有点老了。C语言学完后，可再学点C++，不用学很深（C
珠宝有多少种颜色？
上次看了个段子，据说随着大家对电脑的依赖，将来人描述颜色都是这样的： “他眼睛的RGB值是0:47:147，最纯正的克莱因蓝，代表了最纯正的孤独。” “她的发是极浓的#080808色，没有#000000那么深邃，却比#212121
c语言全局变量的定义是什么？
在所有函数外部定义的变量称为全局变量（Global Variable），它的作用域默认是整个程序，也就是所有的源文件，包括 .c 和 .h 文件。例如：int a, b 全局变量void func1( ){TODO:}fl
西工大noj是什么意思
西工大noj是西工大编程类的题，可以理解为西北工业大学C语言专业。C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运
软件工程专业学什么语言
软件工程专业需要学c语言，数据结构，c＋＋，还有的学JAVA.软件工程专业以计算机科学与技术学科为基础，强调软件开发的工程性，使学生在掌握计算机科学与技术方面知识和技能的基础上熟练掌握从事软件需求分析、软件设计、软件测试、软件维护和软件项目
python中exit(0)和exit(1)的用法和区别，谢谢了
一、功能不同1、exit(0)：表示程序正常退出。2、exit(1)：表示程序异常退出。二、特点不同1、exit(0)：把exit用在main内的时候无论main是否定义成void返回的值都是有效的。2、exit(1)：等价于re
pythonfor循环循环结束输入东西怎么实现
1、python可以使用 break语句结束for循环，如果执行了 break 就会结束整个 for 循环，具体的效果来用一个小案例来演示会更加直观，这里首先打开pycharm编辑器，新建一个python文件：2、然后写入演示小程序，这里输
请问Mac如何进行c语言编译
Mac系统本质上是一个Unix系统，Unix系统就是以C语言编写的。目前Mac OS X的开发工具为Xcode，支持C和标准C++程序的编写。而Mac平台也有不少支持C语言编程的IDE，像NetBeans和Eclipse。不过，Mac OS
ruby2.1.3无法连接mysql
ruby在windows下使用mysql要注意要装mysql2要指定mysql-connector的目录，注意你的目录可能跟我的不一样gem install mysql2 --platform=ruby -- '--with-m
c语言入门自学书籍都有哪些？
链接:提取码: y42j《C语言基础》深入浅出地介绍了C语言程序设计的基础知识，内容涉及C语言基础、算法基础、变量、数据类型、运算符、输入输出相关函数、选择结构、循环结构、各种表达式、数组、字符串、指针、函数、结构体、ISO C99的扩
C语言程序设计视频教程(曾怡)她用的是哪本书啊？
谭浩强的:《C程序设计》，最新版是第三版，不过第二版应该也可以了（蓝色的）。说明一下：坚决不同意直接看K&ampR的《The C programming language》，这本书绝对不是初学者可以看懂的，里面讲语法的并不多，语法都
Rails 开发与 Java 编程的比较
年月日 Ruby on Rails 开发和 Java&amp# 开发有着本质的不同在跨越边界系列的最后一期中 Bruce Tate 将概述使用 Rails 从头开发一个复杂可伸缩的 Web 站点时所发
怎么学习编程语言
第一步：理解这门语言的设计理念和通用的语言特性例如，如果你要学 Ruby，那就先看一下 Ruby 有什么特别的？Ruby 是一门开源的动态编程语言，专注易用性和效率。它的语法很优雅，代码读起来很自然，写起来也很自然。让我们更深入地看一下：h
c语言全局变量的定义是什么？
在所有函数外部定义的变量称为全局变量（Global Variable），它的作用域默认是整个程序，也就是所有的源文件，包括 .c 和 .h 文件。例如：int a, b 全局变量void func1( ){TODO:}fl
C语言中怎么字符串赋值？
需要准备的材料分别有：电脑、C语言编译器。1、首先，打开C语言编译器，新建一个初始.cpp文件，例如：test.cpp。2、在test.cpp文件中，输入C语言代码：char a[20]strcpy(a, "hello"
纯 Python 写一个 Web 框架，就是这么简单
造轮子是最好的一种学习方式，本文尝试从0开始造个Python Web框架的轮子，我称它为 ToyWebF 。本文操作环境为：MacOS，文中涉及的命令，请根据自己的系统进行替换。 ToyWebF的简单特性：
【Python 】性能优化系列：随机数
最近在做的项目重点部分与大量生成随机数有关，维度高达[1700000,10000]，需要生成 10 x 30 次左右，这里遇到内存和速度的双重瓶颈，特地研究了一下如何优化随机数。优化时间测试所需的分析工具在另一篇博客《性能优化系列一：
python3.9.0怎样改成中文
Python现在只有英文的，所以微机老师才会说：“学编程补英语”嘛。是吧？扩展资料:Python由荷兰数学和计算机科学研究学会的Guido van Rossum 于1990 年代初设计，作为一门叫做ABC语言的替代品,Python提供了

推荐阅读

热门文章

最新发布

标签列表

怎么用python解析网页，并提取出与标题相关的正文

给您推荐相同类型的内容：