Python提取网页链接和标题

2023-04-03 17:43:01Python017

Python提取网页链接和标题,第1张

方法1：BS版

简单写了个，只是爬链接的，加上标题老报错，暂时没看出来原因，先给你粘上来吧（方法2无问题）

from BeautifulSoup import BeautifulSoup

import urllib2

import re

def grabHref(url,localfile):

html = urllib2.urlopen(url).read()

html = unicode(html,'gb2312','ignore').encode('utf-8','ignore')

content = BeautifulSoup(html).findAll('a')

myfile = open(localfile,'w')

pat = re.compile(r'href="([^"]*)"')

pat2 = re.compile(r'/tools/')

for item in content:

h = pat.search(str(item))

href = h.group(1)

if pat2.search(href):

# s = BeautifulSoup(item)

# myfile.write(s.a.string)

# myfile.write('\r\n')

myfile.write(href)

myfile.write('\r\n')

# print s.a.sting

print href

myfile.close()

def main():

url = "http://www.freebuf.com/tools"

localfile = 'aHref.txt'

grabHref(url,localfile)

if __name__=="__main__":

main()

方法2：Re版由于方法1有问题，只能获取到下载页面链接，所以换用Re解决，代码如下：

import urllib2

import re

url = 'http://www.freebuf.com/tools'

find_re = re.compile(r'href="([^"]*)".+?>(.+?)</a>')

pat2 = re.compile(r'/tools/')

html = urllib2.urlopen(url).read()

html = unicode(html,'utf-8','ignore').encode('gb2312','ignore')

myfile = open('aHref.txt','w')

for x in find_re.findall(html):

if pat2.search(str(x)):

print >>myfile,x[0],x[1]

myfile.close()

print 'Done!'

import beautifulsoup

import urllib2

def main():

userMainUrl = "你要抓取的地址"

req = urllib2.Request(userMainUrl)

resp = urllib2.urlopen(req)

respHtml = resp.read()

foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL

if __name__=="__main__":

main()

方法链接标题给你你要

# 上一篇：手机怎么投屏到电脑上？

# 下一篇：电脑锁屏密码设置在哪里？

给您推荐相同类型的内容：

如何查看电脑是否被植入了挖矿程序
如何判断自己的电脑是否被挖矿，怎样预防？电脑开机后，所有程序都不打开的情况下。按Ctrl+ALT+Del调出任务管理器，在“进程”卡项中，查看CPU的使用情况。如果看到某个进程占用了大量的cpu使用情况，并且几分钟后都没有降低的趋势，这个程
计算机培训课程怎么样?好学吗?如果我学软件开发的话...
好学，0基础入门，学习时间根据你自身背景：有3个月、6个月、一年、一年半四个比较常见的电脑培训时间。①应届大学生，他们的计算机培训一般都是java软件开发、web前端、Python、大数据等课程，时间大多都是6个月；②高中毕业生，他们培
我想问一下苹果电脑如何扩展内存
1、苹果电脑是不能扩展内存的，除非换硬盘。2、苹果电脑是苹果公司开发上市的一种产品，苹果公司原称苹果电脑公司(AppleComputer,Inc.)总部位于美国加利福尼亚的库比提诺，核心业务是电子科技产品，目前全球电脑市场占有率为3.8%。
笔记本电脑没鼠标如何拖动图片
可以使用笔记本电脑触摸板拖动图片，两只手指放到合适的位置拖动图片即可；触摸板的使用：移动光标：在平滑的感应区域上轻轻移动手指；选择对象：请在触摸板表面轻轻敲击一次；要选择并移动（或拖动）对象：将光标定位在对象上，然后连续敲击两次触摸
急！！！！！！！电脑怎样设置软件安装权限？？急急！！！！！！！！！！！！！
具体操作步骤如下：1、首先，按Windows+ R弹出运行对话框，输入“ GPEDIT.MSC”，然后按【确定】按钮，如下图所示，然后进入下一步。2、其次，完成上述步骤后，在新出现的页面中，选择[本地计算机策略]中的[Windows设置
如何把手机数据导入电脑
如果您使用的是华为手机，以华为Mate 40手机为例：1、通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，点击此电脑（计算机），会出现以手机命名的盘符。2、从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多
怎么更换电脑显卡驱动？
1、首先下载好显卡驱动更新，放到一个文件夹然后记住文件夹地址。打开控制面板——设备管理器——显示适配器——在要更新的显卡上单击右键2.单击更新驱动程序3.单击浏览计算机以查找.....4.找到你放下载好的驱动的文件夹单击下一步即可换显卡
如何设置电脑休眠状态
问题一：电脑处于屏幕保护或者休眠状态的时间怎么自己设置?按以下步骤操作可以设置电脑进入屏幕保护的时间： 1、在桌面上单击鼠标右键，弹出菜单 2、选择弹出菜单中的“个性化”选项 3、在打开的界面中找到右下角“屏幕保护程序”，左
怎样设置电脑浏览器代理
浏览器代理是什么，该怎样设置?下面是我为大家整理的电脑浏览器代理上网的设置方法，希望大家能够从中有所收获! 电脑浏览器代理上网的设置方法：1 打开“Internet属性”要设置代理先在桌面上用鼠标右键单击“Int
怎么查电脑的生产年份？
查看生产年份具体操作如下：1、按住组合键“win+r”打开“运行”对话框2、输入“cmd”点击确定3、便会出现如图所示界面4、在后面输入代码“WMIC BIOS get releasedate”，敲回车5、这个时候就可以看到电脑的生产日期
快十年的老机子了，中见更新过一次显卡，现在如果只想更新CPU的话，可用型号有哪些？
你这主板是A88的主板，最高支持FM2+的处理器，不知道你要干什么用，这种主板不支持中高端处理器，它能上的也就是X4 870K或者860K之类的CPU。因为它设计出来主要是为了装APU的，APU是依靠核显生存的，FM2+平台已经被完全淘汰了
大学生电脑里应该有哪些实用的学习必备软件？
1.1社交聊天软件主要有3个，分别是：微信（PC版）、QQ、新浪微博，几乎是装电脑必备的了。1.2浏览器软件一共有4个，分别是360浏览器、QQ浏览器、Chrome浏览器、火狐浏览器。1.3办公软件主要有两个，分别是Microsoft Of
东莞长安有哪些电脑城？
东莞东城世博东城大道世博天源电脑城，电源数码港东莞莞城岗贝东日电脑城东莞莞城西城楼大平洋电脑城（电脑少）东莞旗峰路方中电脑城东莞旗峰路先科电脑城（正装修）东莞鸿福路天源电脑城（老天源）东莞石龙客运站附近石龙电脑城东莞长安长安东莞东城世博东城
电脑软盘是什么东西？在那里？
软盘（Floppy Disk）是个人计算机中最早使用的可移介质，在使用之前必须要先格式化。软盘的读写是通过软盘驱动器完成的，软盘驱动器设计能接收可移动式软盘，目前常用的就是容量为1.44MB的3.5英寸软盘。软盘在早期计算机上必备的一个硬件
如何使用热点连接电脑
电脑连接热点，需要借助手机来实现，手机需要打开热点。具体的操作方法如下：1、先打开手机，在手机桌面上找到【设置】功能并点击打开设置界面。2、然后可以在设置界面中找到【网络和连接】下方的【个人热点】并点击打开。没有连接之前显示是已关闭的状态。
电脑显示器配任何配置的主机都能用吗
是的都是可以用的。如果主机的显卡接口特殊可以配置转换接头即可。1、VGA接口：2、DVI接口：3、HDMI接口：如果按照正常的说法来讲基本上所有的显示器都是可以配所有主机的。不过还是要看主机和显示器的接口是否对得上。就算两个接口对不上
CSS(css reset)重置到底要怎么写？
(文章来源于：玉溪无痛人流因为各种浏览器的算法不一样，从而导致CSS在不同的浏览器中存在一部分不一样的效果，CSS重置就是写一段初始化CSS将这些浏览器不同的初始化设置指定同一种显示效果。使用了CSS重置以后，各不同浏览器的初始化设置将一致
电脑弹窗太多怎么去除看看这些方法
1、右下角弹窗。右下角有时候也会有窗口弹出，关闭窗口旁边也会有类似的图标。我们可以用同样的方式来关闭弹窗。2、360的开机弹窗广告。360的开机弹窗广告，也可以关闭的。绝大多数的软件都是可以这样来关闭弹窗的。但是也有的软件没有关闭弹窗的
多台电脑之间怎样实现文件同步？
数据同步的有两种解决方案：1. 多台电脑之间的直接数据的同步；2. 利用网络服务来进行数据同步，并且可将文件直接保存于网络。比如说通过目前都比较常用的云储存设备这样的软件的进行同步，比如360云盘，百度云。相对于个人用户来说，个人比
电脑怎么打特殊符号
电脑符号打出来特殊符号大全方法：【步骤01】首先，按快捷键“ctrl+shift”，电脑界面右下角会自动弹出搜狗输入法。【步骤02】点击搜狗输入法中的软键盘，然后会出现“特殊符号”和“软键盘”两个选项。【步骤03】点击“特殊符号”，会出现很
台式电脑u盘插在哪
1、台式电脑u盘可直接插在机箱面板前面的前置USB插口即可。2、台式机，是一种独立相分离的计算机，完完全全跟其它部件无联系，相对于笔记本和上网本体积较大，主机、显示器等设备一般都是相对独立的，一般需要放置在电脑桌或者专门的工作台上。因此命名
基于R语言的申请评分卡
信贷行业中常见的评分卡包括：申请评分卡(Application)、行为评分卡(Behavior)、催收评分卡(Collection)以及反欺诈评分卡（Anti-Fraud），简称为A卡、B卡、C卡和F卡。 A卡，主要应用于贷前准入环节对
电脑上的微信打出字怎么发出去？
1、电脑下的微信可以正常用键盘打字。2、微信电脑客户端，即微信电脑版。微信电脑客户端是由手机系统模拟器、微信软件组合而成。微信的电脑客户端，只有微信的基本聊天功能，没有发现、微信支付等其他社交功能。而且手机一旦下线，电脑也就无法使用。
鸿蒙怎么连接电脑
我们会用手机拍照、看视频，甚至是处理工作上的事情。有时候我们需要将手机中的照片或者文档传到电脑上。那鸿蒙怎么连接电脑？一起来看看吧~ 鸿蒙怎么连接电脑？ 1、在手机设置菜单中点击【系统和更新】。 2、点击【开发人员选项】。
css怎么加人
首先，你需要有一个css文件如：style.css文件的内容像下面这样：@CHARSET "UTF-8"* { border: 0px margin: 0px padding: 0px}body { background
各种各样的视频素材太多了，该如何分类？
在确定大致剪辑思路后，我们第一步要做的就是将素材进行筛选分类。我们可以通过建立相应素材的项目文件夹，将不同场景的系列镜头分类整理到不同文件夹中，这样方便后边的剪辑和素材管理。1、按照脚本结构分类：结构、叙事发展等。2、按照逻辑分类：人物、场
volist 如何输出二维数组
方法一：修改CSS样式，把此列表的li换成div的标签，并设置成向左浮动，这样会在外层的div宽度不够放下下一个li的时候，会自动换行方法二：在后台处理成5个一组，5个一组的数组比如：$arr = array(1,2,3,4,5,6,7,8
怎么才能下载到干净的软件？
大家好我是大明，由于现在大部分网站为了盈利会有一些软件商家合作，导致所下载到的软件都捆绑了第三方软件工具，想要下载到干净的软件坚难度是比较大的，必须要找到能够下载到纯净软件的网站才可以，那么接下来大明就详细的讲一下，到哪些网站才能下载到比较
电脑主机怎样配置性能最好？
下面提供几款不同性能的电脑主机配置：第一款：游戏性能佳，性价比不错。AMD A8-7500的数据处理相当于第二代酷睿i3，集成的核芯显卡非常强大，图形性能相当于最新七代i7，而价格比奔腾处理器都要便宜，性价比不可谓不高，搭配独显R7 35
windows10怎么卸载在应用商店安装的应用和软件
若在windows 10应用商店中下载的应用后续无需使用，可通过以下方式进行卸载：1、点击开始按钮；2、在右侧可以看到应用，对着想卸载的应用点击右键，会有“卸载”的选项，在弹出对话框确认卸载后该应用将被卸载。微软商店删除软件如下：首先打

推荐阅读

热门文章

最新发布

标签列表

Python提取网页链接和标题

给您推荐相同类型的内容：