python新手求助关于爬虫的简单例子

2023-03-05 05:52:02Python014

python新手求助关于爬虫的简单例子,第1张

#coding=utf-8

from bs4 import BeautifulSoup

with open('index.html', 'r') as file:

fcontent = file.read()

sp = BeautifulSoup(fcontent, 'html.parser')

t = 'new_text_for_replacement'

# replace the paragraph using `replace_with` method

sp.find(itemprop='someprop').replace_with(t)

# open another file for writing

with open('output.html', 'w') as fp:

# write the current soup content

fp.write(sp.prettify())

如果要替换段落的内容而不是段落元素本身，可以设置.string属性。

sp.find(itemprop='someprop').string = t

赞0收藏0评论0分享

用户回答回答于 2018-07-26

问题取决于你搜索标准的方式，尝试更改以下代码：

print(sp.replace(sp.find(itemprop="someprop").text,t))

对此：

print(sp.replace(sp.find({"itemprop":"someprop"}).text,t))

# coding:utf-8

from bs4 import BeautifulSoup

import requests

import os

url = 'https://'

r = requests.get(url)

demo = r.text # 服务器返回响应

soup = BeautifulSoup(demo, "html.parser")

"""

demo 表示被解析的html格式的内容

html.parser表示解析用的解析器

"""

# 输出响应的html对象

ab = list()

with open("D:\\temp\\mii.txt","w+",encoding="utf-8") as xxx:

for mi in soup.find_all('a'):

ab.append(mi.prettify()) # 使用prettify()格式化显示输出

#xxx.writelines(str(mi))

xxx.writelines(ab)

xxx.close()

之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

gevent是一个python的并发库，它为各种并发和网络相关的任务提供了整洁的API。

gevent中用到的主要模式是greenlet，它是以C扩展模块形式接入Python的轻量级协程。 greenlet全部运行在主程序操作系统进程的内部，但它们被协作式地调度。

实战

通过用gevent把异步访问得到的数据提取出来。

在有道词典搜索框输入“hello”按回车。观察数据请求情况观察有道的url构建。

北京爬虫数据段落自己的

# 上一篇：js方法调用

# 下一篇：css中p后面符号怎么写

给您推荐相同类型的内容：

Go语言编译器TinyGo，基于LLVM，在微控制器和小系统上编译和运行
TinyGo是一个为微控制器、WebAssembly(Wasm)和命令行工具等小型场景设计的Go语言编译器。TinyGo重用了Go语言工具和LLVM使用的库，以编译用Go语言编写的程序。目前，该项目在GitHub上已经积累了10.1k的S
Python常见的漏洞都有什么？
首先是解析XML漏洞。如果您的应用程序加载和解析XML文件，那么您可能正在使用XML标准库模块。有一些针对XML的常见攻击。大多数是DoS风格（旨在破坏系统而不是窃取数据）。这些攻击很常见，尤其是在解析外部（即不受信任的）XML文件时。一种
邪恶力量第四季 ruby
第四季的是由杰娜微弗·库塔希(Genevieve Cortese)，扮演的，第三季的是凯蒂-卡西迪(Katie Cassidy)生日：1981年1月8日年龄：28岁出生地：洛杉矶加利福尼亚出生姓名：Jennifer Cortese绰号
怎样在css样式中给删除线加颜色？
直接方法没有这个技能，但是可以变通一下&ltspan&gtdemodemo&ltspan&gt&ltspan&gt&ltspan&gtspan { display
如何在js函数中调用另外一个函数
具体调用情况需要看js方法是怎么写的。①如果是最简单的一个方法：functiuon dome1(){ .代码块}调用方法就是：dome1()。②如果是闭包形式:function dome1(){ function dome2()
CSS自定义导航栏悬浮(三种实现方式)
提供三种自定义导航栏悬浮的方法在自定义组件中设定css 样式: 利用position: fixed利用position: fixed划水摸鱼的时候研究了下CSS实现悬浮式菜单，在此分享一下！ transitio
js方法调用
JS函数的定义与调用方法JS函数调用的四种方法：方法调用模式，函数调用模式，构造器调用模式，apply,call调用模式1.方法调用模式：先定义一个对象，然后在对象的属性中定义方法，通过myobject.property来执行方法，this
英雄联盟直播在哪里看
lol直播电视台在哪？LOL电视台是英雄联盟官方推出的直播功能，玩家在游戏窗口右下角的功能栏中可找到相应按钮。电视台界面左栏则罗列了精彩直播节目表，玩家也可以在这里对感兴趣的节目进行点播，并在界面的下侧查看该节目的详细信息。从TGP进
java怎么来修改txt中的内容？
public class update_txt { public static void main(String[] args) {File file = new File("D:\update_txt.txt")
当下学什么电脑技术比较好？
第一：软件工程专业。软件工程专业的就业情况一直比较不错，在计算机专业当中的表现是比较突出的，所以如果在本科毕业之后就希望参加工作，可以重点考虑一下软件工程专业。软件工程专业的细分方向比较多，不少女生比较喜欢前端开发方向，另外也可以重点关注一
rwby》是哪个国家的动昼作品
你好是美国的原创网络动画《RWBY》（发音同Ruby）是一部在2013年7月播出的原创网络动画。R、W、B、Y 分别是英语红白黑黄的首字母，代表的分别是四位女主角的主题色。由美国Rooster Teeth Productions（公鸡牙齿）
吃鸡呆呆啾啾是什么模式
科学之轮模式。根据刺激战场游戏官网资料，和平精英吃鸡呆呆啾啾是科学之轮模式攻略，是暑假新模式科学之轮玩法，可以通过与海岛各处的光子鸡通讯站交互，特种兵将获得全新的光子鸡伙伴和新载具。绝地求生刺激战场官网版是一款大型多人在线吃鸡类手游，超燃的
CSS盒子模型
在“CSS盒子模型”理论中，所有页面中的元素都可以看成一个盒子，并且占据着一定的页面空间。一个页面由很多这样的盒子组成，这些盒子之间会互相影响，因此掌握盒子模型需要从两个方面来理解：一是理解单独一个盒子的内部结构，二是理解多个盒子之间
怎样对电脑上文件夹设置密码
电脑文件怎么设置密码：1、文件夹设密码，首先我们需要在电脑上建立一个新的文件夹，命名的话可以根据自己需要进行命名，之后将重要的文件或者需要加密的文件放入到这个新建的文件夹里面，接下来就开始加密了。2、我们将需要进行设置密码的文件夹打开，点击
做设计类工作想攒一个高端配置的电脑。主用软件：MAYA、3D、PS、DW、FL、premiere、AE等。各位有什么建议
答：一是CPU，当然用i7 中的中高端产品了。用i7的2700吧，再贵的，没有更多的必要了 3000元二是主板，是这相当重要的。如果资金够用，则用技嘉GA-X58A-UD7 就可以了。 2400元。三是硬盘，这是影响速度的瓶颈。当然是用固态
Java String类的concat()方法和用+号连接有什么不同？
concat(String str)方法, 该方法的参数只能是字符串类型而+号,可以接受其他类型public class StringDemo {public static void main(String[] args) {S
耳机插在电脑上为什么没反应？
电脑耳机插上没有声音的原因可能有：1、没有音频播放。2、音量太低或静音。3、电脑声卡损坏。4、电脑耳机插孔或线路开路。5、耳机已损坏。电脑耳机插的方法如下：1、先看看耳机的插头，粉红色的是麦克风插头，上面有麦克风的图案。黑色的
css中p后面符号怎么写
在 html 语言中，&ltp&gt被定义为段落标记，文档中任何适用于段落的地方，都可以出现p标签，例如文档的主体、列表、表格等元素中。p标签是一个块级元素，可CSS规定宽、高属性，代码﹤p style="widt
AS3如何调用JS里面的参数
as里不能直接调用到js里的变量，必须以传参的方式来进行，步骤如下：1）as调用js的方法AExternalInterface.call("A")2)方法 A 调用as里的方法 B ，调用时将i作为参数as里注册一个方法
E 语言按F1提示GO声音怎么写
你好，这个问题很好解决的。1：先去找那个GO的提示音文件，可以是wav可以是mp3等2：使用注册热键（）命令例：注册热键（取窗口句柄（），标签 1.取窗口句柄（），0，#F1键）3：在标签1反馈事件中写入代码：播放MP3(“C:
c语言登录系统
#include &ltstdio.h&gt#include &ltstring.h&gt#include &ltstdlib.h&gt增加return的库函数int login(){
R语言中tseries包为什么安装不上
你好，刚才我在rstudio里尝试了一下，证明很轻松的可以安装上，推测你安装不上的原因是网络情况不太好如果确定网络很好的话，还是安装不上，可以换下镜像地址；换成中国清华大学或合肥科技大的，应该会有所改善。你是不是用R Gui安装的，提示已经
发票软件打出来睿
1、识别类型多：发票识别软件可识别增值税普通发票、增值税专用发票、机动车销售发票、出租车票、火车票、飞机行程单、定额发票等；2、识别字段全：发票识别及导出excel工具可识别发票上除密文区外所有的字段信息，包括代码、号码、金额等十几种内容信
请问R语言在一个表中如何筛选出两列有相同部分的行？
建议使用排序解决这一问题：单击表格中任何一个有数据的单元格，也就是选中数据清单，然后打开“数据”菜单，选择“排序”，在弹出的对话框中，设置“主要关键字”为要查找相同内容的列标题（如“姓名”），确定，之后表格中的数据相同的记录就会排列在一起。
Ruby的语言用途
Ruby 是开源的，在Web 上免费提供，但需要一个许可证。 Ruby 是一种通用的、解释的编程语言。Ruby 是一种真正的面向对象编程语言。Ruby 是一种类似于 Python 和 Perl 的服务器端脚本语言。Ruby
我的电脑打开后点最大化变成全屏了，如何能取消全屏显示
一些操作系统有记忆功能，会自动记录你的前一次操作，可能你上一次设置了全屏，所以进去后就默认的全屏，也可能是你下载的某个软件恶意更改了你的电脑设置，不管是哪种情况解决办法都是一样的。以下是具体操作：1、进入任意一个程序，然后按键盘上的“F
golang channel 超时如何处理
个人理解的channel超时处理思路分享，若有错误或者不足，请联系我:qq 869329877 主程序通过go timeout(）挂起一个协程，在timeout方法里面利用select来监控逻辑处理的变化，如果请求时间过长或者连接到其他
linux下查看某软件是否安装
https:blog.csdn.netweixin_43025071articledetails122325802先获取root权限 1、rpm包安装的，可以用rpm -qa看到，如果要查找某软件包是否安装，用 rp
笔记本电脑怎么选
选购笔记本电脑首先要明确使用需求，然后根据需求和实际预算进行选择。　学习使用：可以看看华硕无畏pro14无畏pro15，vivobook15系列，A豆系列，价格在5000元左右。玩游戏一般选择I5 7代以上的CPU，显卡选择GTX2060
ruby可以做什么?
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言.作用：Ruby 是开源的，在Web 上免费提供，但需要一个许可证。Ruby 是一种通用的、解释的编程语言。Ruby 是一种真正的面向对象编程语言。Ruby 是一种类似

推荐阅读

热门文章

最新发布

标签列表

python新手求助 关于爬虫的简单例子

给您推荐相同类型的内容：

python新手求助关于爬虫的简单例子