请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写？

2023-02-25 10:10:02Python019

请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写？,第1张

代码如下：

#coding=utf-8

import re

import requests

from bs4 import BeautifulSoup

resp = requests.get('http://bbs.tiexue.net/post_4337054_1.html')

if resp.status_code == 200:

soup = BeautifulSoup(resp.content.decode('GB2312'), 'xml')

content = soup.find('div', id = 'postContent')

items = content.find_all('p', attrs = {'class': 'bbsp'})

regex = re.compile(r'\d*(.*?)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?N)\s*((?:\d+°\s?)?(?:\d+\'\s?)?(?:\d+\.\d+\"\s?)?[WE])')

for item in items:

line = item.text.strip()

if line != '':

match = regex.match(line)

if match:

groups = match.groups()

print('名称:', groups[0])

print('北纬:', groups[1])

print('东经:', groups[2])

print('----------------------------------------')

运行结果：

可以使用Python的regex模块并re.sub()替换要摆脱的任何字符。

您既可以使用黑名单替换所有不需要的字符，也可以对所有希望允许的字符使用白名单，仅保留这些字符。

在python中，所谓的“正则表达式”指的是通常被用来检索、替换那些符合某个模式的一段文本。具体而言，它的作用是检测某个字符串是否符合规则和提取网页字符串中想要的数据。

import rec='sdsdaherf=sadasdada sdad123,21312!!!' pattern=re.compile('herf=(.*)') pattern.findall(c) a=re.findall('herf=(.*)', c) a 结果就是 Out[9]: ['sadasdada sdad123,21312!!!']

字符字符串结果它的不需要

# 上一篇：《Go语言编程》pdf下载在线阅读全文，求百度网盘云资源

# 下一篇：JAVA温度补0问题？

给您推荐相同类型的内容：

ruby头盔哪里生产的
ruby头盔是厦门生产的。头盔是保护头部的装具,是军人训练、作战时戴的帽子,是人们交通中不可或缺的工具。它多呈半圆形,主要由外壳、衬里和悬挂装置三部分组成。外壳分别用特种钢，玻璃钢，增强塑料，皮革，尼龙等材料制作，以抵御弹头。保护头不受到
如何运行JAVA？
第一步：下载并安装JDK 6.0，安装路劲为: C:javajdk1.6 . x0dx0ax0dx0a第二步：对“我的电脑”按右键，选“属性”，在“系统属性”窗口中选“高级”标签，再按“环境变量”按钮，弹出一个“环境变量”的窗口
用来编写JAVA程序的应用软件有哪些？
1、Eclipse - IBM甩出来给开源社区的IDE，其本身就是使用Java开发的。x0dx0a2、MyEclipse - 把Eclipse包装了一下，加了J2EE企业开发的许多功能强大的插件。x0dx0a3、NetBeans -
r语言 plot设置刻度
解决这个问题的方法如下：1、首先在R中，plot函数作图时会自动给出xy轴的刻度标度。2、然后有时需要自己定义xy轴的刻度，这时可以用axis中的at和labels参数来更改，先令plot不要画出xy轴的标度。3、最后，用axis函数设置
如何在Windows下安装R语言编程环境
首先你应该在官网找到相应的R安装包，我们选择的是Windows的，下载页面如下：2下载成功之后双击选择安装，对于我们来说我们选择的是简体中文，如下图3点击确定之后进入下一个页面（此处你可以看到自己安装的版本号），如下图：4上面点击下一
北大青鸟设计培训：关于GraalVM的特点？
对于程序员来，一般都会掌握许多编程工具来提高自己的工作效率的，但是如果有一款编程工具能够适用所有编程语言的话，我觉得应该就是GraalVM了，今天贵州北大青鸟http:www.kmbdqn.cn就一起来了解一下GraalVM的特点。1
如何用r语言实现对已经分好的词作词频统计
如果你已经做过分词了，那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计，然后根据你的关键词提取对应部分就可以了啊。用结巴包做分词，Github的地址：https:gi
C语言与单片机C语言的区别急求
单片机c语言比起普通C语言增加了一些基本的指令，变量的赋值是16进制，当然单片机c语言只牵涉到普通c语言的基础部分。具体体现在：1、单片机中C的语法一般都对ANSIC有些扩展,及一些特殊写法如C51扩展的dataxdatabitsbit一
C语言二维数组
c[][1]={1,2,3} 根据初始化的数据，得出这个数组有3行，每行1列。等价于声明了： c[3][1]所以语句要用 for (x=0x&lt3x++) for (y=0y&lt1y++) {来输出c
linux下怎么安装Go开发环境
一、Go安装使用1、下载Go源码包https:storage.googleapis.comgolanggo1.6.3.linux-amd64.tar.gz上传到usrlocalsrc目录下2、编译安装Go到usrlocal
python 读取CSV 文件
读取一个CSV 文件最全的一个简化版本filepath_or_buffer: str，pathlib。str, pathlib.Path, py._path.local.LocalPath or any objec
go语言的全称
Go全称Golang。Go语言由Google公司开发，并于2009年开源，相比JavaPythonC等语言，Go尤其擅长并发编程，性能堪比C语言，开发效率肩比Python，被誉为“21世纪的C语言”。Go语言在云计算、大数据、微服务、高
C语言与单片机C语言的区别急求
单片机c语言比起普通C语言增加了一些基本的指令，变量的赋值是16进制，当然单片机c语言只牵涉到普通c语言的基础部分。具体体现在：1、单片机中C的语法一般都对ANSIC有些扩展,及一些特殊写法如C51扩展的dataxdatabitsbit一
利用r语言相关性检验结果可能为0吗
1.两变量均为多分类此时就是通常说的分析变量间的关联性，此时数据一般为数据框或矩阵结构的频数表，可直接使用chisq.test()命令进行处理，如：&gtchisq.test(bird.df)如果频数表中有频数为0，则会输出一个错误
看完《RWBY》
过年从B站淘到的一个动画，被第一集的时候，ruby的样子打动。以及久违的打斗场面，潜力股小红帽，疯狂罪犯Romen，御姐属性Cinder，白发眼镜校长，黄发魔杖熟女教导主任，ruby毫无意外跳级，被Oz校长接收为Beacon学校学生。
Python爬虫实战（1）requests爬取豆瓣电影TOP250
爬取时间：20201125 系统环境：Windows 10 所用工具：Jupyter NotebookPython 3.0 涉及的库：requestslxmlpandasmatplotlibnumpy蛋肥
go语言中怎么给结构体分配内存
随便怎么写啊，共享内存获取到不是给你一个内存地址，这里称之为des么，直接通过des地址访问啊，比如你要写2个结构体进去，第一个memcpy写到des,第二个可以（memcpy到des+结构体大小）的地址指向的内存上，1、new 的主要特性
C语言中怎样换行？
1 使用字符串，输出在一个字符串结尾加上“rn”，如“hellorn”2 使用字符数组拼接成字符串（在嵌入式c的使用中是常见的），在数组末尾增加0x0d和0x0a如：unsigned char data[8] data[0]
用程序导数据那种语言效率高比如 php python ruby perl等，处理上千万条数据，php我的用10分钟导一次
在同一的机器上用类似的算法，并且统一编译成字节码或者统一不编译，处理大量文本数据的效率主要看语言解释器时，效率由高到低大致是 perl, python, php, ruby, perl 明显快，尤其涉及正则表达式处理时，ruby 明显慢，即
r语言计算概率的代码怎么写
R一个很方便的用处是提供了一套完整的统计表集合。函数可以对累积分布函数P(X≤x)，概率密度函数，分位函数（对给定的q，求满足P(X≤x) &gtq的最小x）求值，并根据分布进行模拟。在统计学中，产生随机数据是很有用的，R可以产生
Java中a>100并且<1000应该怎么表示
a&gt100&amp&ampa逻辑运算符把各个运算的关系表达式连接起来组成一个复杂的逻辑表达式，以判断程序中的表达式是否成立。&amp&amp与 &amp区别如果 a 为 false，则不计
请问这个python正则表达式是什么意思？matches = re.findall('([^s]+)', line)
这个是用来匹配不带空格和反斜杠的字符串。这里的^匹配非中括号里的字符；s代表空格；\代表字符反斜杠（正则表达式需要双反斜杠来转义，因为在正则表达式中本身就具有含义）line = 'haha \\ \ hehe
java中怎样对一个整数数组进行降序排序
int[] array = {1,2,5,8,12}随便定义一个数组，用冒泡排序法 for (int i = 0；i &ltarray.lengthi++){for(int j = ij &ltarray.lengt
python怎么输入中文
解决中文输入的两种应用：在脚本中加语言编码声明 “-*- coding: uft-8 -*-”python学习网，大量的免费python视频教程，欢迎在线学习！应用一：print中出现中文方法一：用unicode(' &#
Python 值传递，引用传递
常见的参数传递有 2 种：值传递和引用传递。所谓值传递，通常就是拷贝参数的值，然后传递给函数里的新变量。这样，原变量和新变量之间互相独立，互不影响。所谓引用传递，通常是指把参数的引用传给新的变量，这样，原变量和新变量就会指向同一块内存
c语言中的二维数组？
C 语言中的多维数组（multidimensional array）其实就是元素为数组的数组。n 维数组的元素是 n-1 维数组。例如，二维数组的每个元素都是一维数组，一维数组的元素当然就不是数组了。多维数组声明时，每个维度用一对方括号来表
java清缓存前可以进后台方法,清完缓存不进了
关于java清缓存前可以进后台方法,清完缓存不进了相关资料如下java我们在使用缓存时，往往先尝试去缓存中取值，如果没有，再去数据库取值，如果数据库也没有值，则根据业务需求，返回空或者抛异常。如果用户一直访问一个数据库不存在的数据，比如id
csgo开语音是哪个键？
综述：一般是K键。玩家可以在游戏中点击选项中的音频设置，在音频设置中玩家需要先启用麦克风，启用之后玩家可以设置按键说话或者自由麦，按键说话的默认键位是K。另外这个按键是可以在游戏中随意更换的，完全按个人习惯来设置。CSGO简介：《反恐精
C语言中，a=b=c具体是什么意思？
首先因为“＝＝”号比“＝”的优先级高，所以先执行b＝＝c，明显b等2，c等3两者不等，所以为0（逻辑运算，当b不等c时这个等式的值就为假即是0），再执行a＝0，就把0值赋给了a。1、赋值语句本身也是一个表达式，也是有返回值的，它的返回值就
c语言经典100
您好，c语言经典100题:【程序1】题目:有1,2,3,4个数字,能组成多少个互不相同且无重复数字的三位数都是多少1.程序分析:可填在百位,十位,个位的数字都是1,2,3,4.组成所有的排列后再去掉不满足条件的排列.2.程序源代码:main

推荐阅读

热门文章

最新发布

标签列表

请问用python爬虫抓取此网站的有关信息正则表达式和beautifulsoup怎么写？

给您推荐相同类型的内容：