python爬虫怎么清洗

2023-04-10 04:35:01Python020

python爬虫怎么清洗,第1张

最近学习python网络数据获取，看到了关于数据的清洗，觉得很好用，现贴出代码，权当记录。

# Python 数据清洗

#cleanInput() 功能：

#输入input，

#清除input中的'\n', 多余空格，文献标记[ ]，删除单个字符(除i/a 外)，转化为utf-8编码格式以消除转义字符,

#输出2-grams列表 ngrams

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

import string

def cleanInput(input):

input = re.sub('\n'," ",input)

input = re.sub('

[0−9]∗

',"",input)

input = re.sub(' +'," ",input)

input = bytes(input,'UTF-8')

input = input.decode("ascii", "ignore")

cleanInput = []

input = input.split(' ')

for item in input:

item = item.strip(string.punctuation) #删除标点符号

if len(item)>1 or (item.lower() == 'a' or item.lower()=='i'):

cleanInput.append(item)

return cleanInput

def ngrams(input,n):

input = cleanInput(input)

output = []

for i in range(len(input)-n+1):

output.append(input[i:i+n])

return output

这个得根据具体情况来看。

我给你提个思路，把爬到的全部数据先用一个变量接收，然后用set()工厂函数把数据转为集合（因为集合是无序且不重复的）并赋值给变量，这样就去重了，详细的只有按实际情况来了

数据变量字符来了爬虫

# 上一篇：怎么用css javascript做出一个从左侧飞入

# 下一篇：如何用JavaScript 搞定嵌入式开发

给您推荐相同类型的内容：

css双上划线怎么设置
&ltstyle&gtspan {border-top:3px double #000}&ltstyle&gt&ltp&gt这段文字没有双上划线&ltspan&gt这段文字有
如何用JavaScript 搞定嵌入式开发
作者：知乎用户链接：https:www.zhihu.comquestion29170563answer94419176来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。用一个 JavaScript 平
js给某个text标签添加鼠标的双击事件
js 的单双击事件同时存在会有一个问题：双击事件会同时触发单击事件，两个事件存在冲突。我们加一个延迟时间就能很好的解决这个问题。原理：当接收到第一个点击时，我们先把单击事件存储在这个是全局变量 click_store 里，如果 0.3
Node.js中构建TCP网络连接和搭建HTTP服务器有什么不同
一，相同点1，都调用了createServer方法。2，当客户端接入时都会执行一个回调函数。二，不同之处1，回调函数的中对象的类型。net服务器中，是个连接（connect）对象，而在HTTP服务器中，则是请求和响应对象。2，原因： 1，h
如何解决css3在老版本IE下的兼容性
无法全部完美解决，如果能完美解决就不存在兼容这个概念了。有很多js可以让一些老版本ie支持css3特性，但只是针对性的，没有哪个js能解决所有css3兼容问题，所以想通过js来最大程度让低版本ie支持css3的多种特性的话，你得同时引用几十
急！淘宝店做全屏海报必须要要订购CSS功能吗？
不用CSS功能，直接调用那个绝对定位的class即可footer-more-trigger可以参考&ltdiv style="height:590px"&gt &ltdiv class
css偏方：你有几种方法让DOM消失？
其实这是我在某次面试前端实习生时候遇到的一个问题，面试官说你有多少种让DOM隐藏的方法，能说多少说多少，当时脑抽，因为是“能说多少说多少”就觉得那肯定有好多，总结一下当时想出来的“偏方”。两者不同：如果设置 display:none，
如何在电脑上使用小红书
品牌型号：Redmibook Pro 15系统：windows 7软件版本:360极速浏览器13.0.2212.0 在电脑上使用浏览器打开小红书即可。以Redmibook Pro 15电脑为例，电脑浏览器打开小红书的步骤共需2步。具体操作步
[记] C语言中的nan和inf
在数据处理输入输出时，可能遇到数据读入空值(极大、极小）、运算中分母为0或0.0，对0取对数等操作。将产生nan或inf 。 nan：not a number, 表示 “无效数字” INF：infinite，表示“无穷大” 超出
06-CSS背景和精灵图
1.如何设置标签的背景颜色? 1.如何设置背景图片? 注意点: 1.如何控制背景图片的平铺方式? 应用场景:可以通过背景图片的平铺来降低图片的大小, 提升网页的访问速度 1.如何控制背景图片的位置
电脑怎么调整字体
具体操作流程如下：点击设置从电脑桌面左下角找到并点击“开始”，出现弹窗后点击“设置”。输入字体进入新的页面后，在搜索栏里输入“字体”待页面跳转。选择应用页面切换后，滑动放大文本下的功能条，选择自己喜欢的字体大小，再点击应用即可。选择显示器进
r语言如何导入excel数据
xlsx包不是R语言自带的包，必须额外安装xlsx包的依赖包也得安装，依赖包装好了才能加载xlsx包。电脑：华为MateBook14系统：Windows10软件：1.0R语言、xlsx包1、首先，导入R语言需要加载xlsx包，没有安
css自定义变量
css是可以支持变量，且所有主流浏览器都支持。css变量又称"css自定义属性",css的变量声明是以“--”前缀，而前缀是"$"或"@"被预处理器sass或less占用，所以，c
Java多线程初学者指南（12）：使用Synchronized块同步变量
我们可以通过synchronized块来同步特定的静态或非静态方法要想实现这种需求必须为这些特性的方法定义一个类变量然后将这些方法的代码用synchronized块括起来并将这个类变量作为参数传入synchronized块下面的代
索尼55x9000c和三星55js7200哪个好？
从各自定位上来说，X9000C是索尼2015年高端机型三星JS7200属于三星中端机器。1、外观，X9000C更有特色，毕竟弧面现在不稀奇，而不是所有电视厚度4.9mm。2、画质，别看X9000C薄，色彩，清晰度还是不错的sony好，高端的
js防水是什么材料
JS防水涂料是一种以聚丙烯酸酯乳液、乙烯-醋酸乙烯酯共聚乳液等聚合物乳液与各种添加剂组成的有机液料，和水泥、石英砂、轻重质碳酸钙等无机填料及各种添加剂所组成的无机粉料通过合理配比、复合制成的一种双组份、水性建筑防水涂料。JS防水乳胶为绿色环
电脑如何连接打印机（usb）
操作设备：热敏LBP2900打印机操作电脑：戴尔笔记本电脑操作系统：win71、首先把打印机的数据线接到电脑上，然后插上电源线并打开打印机。2、然后，双击打开“计算机”。3、在计算机的工具栏，点击“打开控制面板”。4、在控制面板中，点
javascript函数怎么自己调用自己啊？
自己调用自己的函数叫做递归函数，递归函数是在程序中函数直接或间接调用自己。工具原料：编辑器、浏览器1、简单的JavaScript递归代码示例如下：function test(num){ if(num &lt= 1){
css样式SVG返回键，方法让当前的元素滚动到浏览器窗口的可视区域内。
这个是一个返回键的&lt这个符号 &ltsvg width="42" height="42"&gt &ltp
建立超链接有哪些方法
问题一：在网页中建立超链接的方法有哪些PowerPoint提供了功能强大的超链接功能，使用它可以在幻灯片与幻灯片之间、幻灯片与其他外界文件或程序之间以及幻灯片与网络之间自由地转换，但在实际应用中很多老师对这一功能并不十分熟悉，下面我就将
苹果电子邮箱怎么登陆
如果您使用iCloud、Google或Yahoo等电子邮件提供商，则“邮件”只需使用您的电子邮件地址和密码，即可自动设置您的电子邮件帐户。具体操作如下：1.前往“设置”-“帐户与密码”，然后轻点“添加帐户”。iknow-pic.cdn
用CSS创建扁平化面包屑导航中的伪元素after，before浮动覆盖问题？
#crumbs ul li a:after{ *styles . . . * *加一个zindex就可以了* z-index:100}网页样式需要大量时间开发，最省事的方法就是使用 CSS
什么品牌的固态硬盘好？
目前市面在售的知名度较高的固态硬盘有镁光、三星、金士顿、闪迪、七彩虹、影驰等，从我使用感受来说比较偏爱三星这个牌子。1、镁光：也许你对这个品牌比较陌生，但对金士顿、闪迪一定耳熟能详，这两家固态硬盘领域的资深玩家它们所使用的晶圆就是由镁光提
二分查找算法
二分查找算法，该算法要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。如果一个序列是无序的或者是链表，那么该序列就不能使用二分查找。二分查找算法原理：若待查序列为空，则返回-1，并退出算法；若待查序列不为空，则将它的中间元素与
Windows XP的锁屏方法
下面根据“用户登录或注销的方式”设置的不同，分别介绍其锁屏的方法。设置1：按Ctrl+Alt+Del，在弹出的任务管理器中选择“关机”菜单的“锁定计算机”。优点：登录前有“欢迎屏幕”，其他优点同设置1。缺点：不支持快速用户切换
电脑里立方米怎么打出来啊
电脑打立方米有以下几种方法:1、最古板的方法：在word文档中我们可以先打一个m，在打一个3或者2.选中3右键选择字体，选择上标即可。2、第二种简单方法：长按住alt键，然后键入数字0179，就可以了。3、如果你用的是百度输入法或者搜狗
JS中的 Array 类是否有 add方法
JavaScript中的Array类型很灵活，和C语言不同，同一个Array每个位置可以存储不同的变量类型，而且数组长度可变。声明数组的方法：var colors = new Array() var colors = new Array(2
js数组的map方法
js数组的map方法这里的map不是“地图”的意思，而是指“映射”。[].map() 基本用法跟forEach方法类似：array.map(callback,[ thisObject])callback的参数也类似：[].map(f
highlight.js
一行代码就能让我的网站支持代码高亮的工具库，也支持在 Vue 中使用，强烈推荐给大家。 highlight.js 是一款使用 javascript 开发代码高亮工具库，能够让网页上的代码显示接近我们使用的代码编辑器的高亮样式，从而看
如何用电脑剪辑音乐
电脑上剪辑音乐，非常方便，使用专业的音频剪辑工具即可，下面以本人使用的“QVE音频剪辑为例”，分享下剪切音乐的方法，大家一起了解下，首先在网页如图搜索，官网点击产品，选择工具。剪辑音乐步骤：1，打开音频剪辑，点击添加文件按钮，导入需要剪切

推荐阅读

热门文章

最新发布

标签列表

python爬虫怎么清洗

给您推荐相同类型的内容：