如何用shell获取html网页中指定的文本数据

2023-03-02 11:01:01html-css018

如何用shell获取html网页中指定的文本数据,第1张

import sys

from lxml import etree

reload(sys)

sys.setdefaultencoding("utf8")

import requests

r = requests.get('http://best.pconline.com.cn/')

html = r.text

xmlhtml = etree.HTML(html)

content = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/text()')

urllist = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[1]/a[2]/@href')

lastime = xmlhtml.xpath('//div[starts-with(@id,"topic")]/div[2]/div[2]/span[2]/text()')

data_text = [ text for text in content ]

data_url = [ url for url in urllist ]

data_time = [ t.strip() for t in lastime ]

for i in xrange(0, len(data_text), 1):

print "%s, %s, %s" % (data_text[i], data_url[i], data_time[i])

用 wget 获取一下 bbs.chinaunix.net 的页面，得到的页面是bbs.chinaunix.net版面列表，然后自然是要分析这个 html 文件，但是 html 文件的“源码”跟普通 txt 文件差别很大，在html“源码”里多几个空行，多几个空格都不会影响 html 文件的显示，但对于格式分析却有很大影响！

这个实在太简单，哥给你写好。

#!/bin/bash

echo "" >index.html

echo "<html><head><title>My HTML Image Viewer</title></head><body>" >>index.html

for f in `ls *.jpg`do

echo "<img src=\"$f\"/>" >>index.html

done

for f in `ls *.bmp`do

echo "<img src=\"$f\"/>" >>index.html

done

for f in `ls *.gif`do

echo "<img src=\"$f\"/>" >>index.html

done

echo "</body></html>" >>index.html

记得给哥加分

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：苹果电脑可以越狱么

# 下一篇：手机连接电脑怎么上网

给您推荐相同类型的内容：

粒子-随时间改变粒子属性
1 .实现效果,粒子的某些属性，大小，颜色，可以在生命周期改变，其他参数，发射速率，起始大小或寿命。都可以在粒子系统的持续时间内更改 2 . &lt!DOCTYPE html&gt&lthtml&
CSS高亮是什么意思?
对于快速定位，个人的经验处理一般如下：1、检查页面的标签是否闭合不要小看这条，也许折腾了你两天都没有解决的 CSS BUG 问题，却仅仅源于这里。毕竟页面的模板一般都是由开发来嵌套的，而他们很容易犯此类问题。快捷提示：可以用 Dreamwe
手机连接电脑怎么上网
台式电脑用手机流量上网的方法如下：1、找到台式电脑的USB接口，将手机充电线的USB接在台式电脑端。2、手机连接上充电数据线接口。3、打开手机自带的设置应用。4、点击进入设置中的个人热点。5、点击打开USB网络共享。6、打开后再查看电脑端
有哪些比较好用的免费弹幕效果的js插件
如果要求比较低的话就用windows自带的MovieMaker （本身很小）如果要求效果较高的话推荐使用会声会影（相对较大，但功能要强大得多）至于教程你在网上一搜一片的，你又不打算系统的学习，所以看一看就行了。因为alert方法阻塞了代
JS实现HTML标签转义及反转义
function HTMLEncode(html) { var temp = document.createElement("div") (temp.textContent != null) ?
win8恢复系统中回收电脑是什么意思
回收电脑是指删除所有数据，不留任何痕迹。非常适合一台旧机器卖给别人来使用回收再WIn8前主要有用户手动来完成，以后就自动完成了，让用户不再手动来完成，但有趣的是，很多用户都当作“格式化”来对待了。这项功能的使用还是需要谨慎，大部分用户无
10大显卡排行榜
显卡性能排名前十，有RTX 3090、RTX 3080 Ti、Radeon RX 6900 XT、Radeon RX 6800 XT、RTX 3080、Radeon RX 6800、RTX 3070 Ti、RTX 3070、RTX 2080
怎么禁止网页自动跳转?
问题一：如何避免网页自动跳转ie 工具 ―― Internet选项 ―― 高级 ―― 禁止动态js脚本火狐工具 ―― 选项 ―― 内容 ―― 启用javascript去掉问题二：怎么阻止浏览器自动跳出的页面？可以
华为智慧屏html线到底在哪儿
智慧屏背部靠左。华为智慧屏是一款具备旗舰音画和超级娱乐体验的全能智慧屏，华为在德国发布首款大屏产品“华为智慧屏”。华为智慧屏html线在智慧屏背部靠左，可以连接机顶盒、游戏机、家庭音响等设备。在系统设置里打开所有应用，找到html查看器点击
手机怎么连接电脑呢？
您可以通过数据线将手机与电脑连接，以华为P40 Pro手机为例：1.通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，会出现以手机命名的盘符。2.从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多选项，选择合
html页面如何让别人看不到页面源代码!
防止查看网页源代码的方法：&lthtml&gt&lthead&gt&ltscript language="javascript"&gtfunction clear（
电脑硬盘哪个好?
问题一：什么样的电脑硬盘好？硬盘看你个人用途，硬盘按照种类分有三种：一直就是普通SATA接口的硬盘，一种是服务器的SAS硬盘，一种就是才出来的固态硬盘。 1：普通SATA接口的硬盘：也就是大众用的硬盘，不管西数还是希捷，其实都差不多
电脑玩传奇需要下载什么客户端
电脑玩传奇需要下载mir传奇客户端。mir传奇客户端是传奇游戏的电脑APP运行软件，必须下载mir传奇客户端游戏才可以电脑玩传奇。传奇游戏的原版英文是：LegendofMir意思是米尔的传说传奇三龙卫时期玛珐大陆上生活的族人就是米尔人。热血
CSS里怎么用盒子的下边框画一条红色的2PX的线网页显示的时候只有一条直线就可以了
CSS代码如下border-bottom: 2px solid red代码解释：border-bottom: 表示下边框2px:表示边框宽度solid：实现边框red：红色在制作CSS动画的时候，经常会有这样的需求，让一
R语言初学笔记：差异表达基因
setwd("E:GSE25066")#环境设置 library(limma)#加载差异分析包limma #将分组文件加载到环境中，分组信息第一列为样本名，第二列为分组信息如“high”“low” targ
如何在电脑上设置提醒?
问题一：怎么设置电脑定时提醒？可以试试桌面提醒精灵,支持定时关机桌面提醒精灵是一款功能丰富，操作简单的专业提醒软件。主要功能： 1、支持多种提醒时间格式，适合各种不同行业的用户使用。 2、支持通讯录功能，可以记录联系
css中如何显示时间年月日星期几几点几分几秒
&lthtml&gt&lthead&gt&ltmeta http-equiv="Content-Type" content="texthtmlcharset=gb231
js到底难不难学?
js并不难学。Js给人那种感觉的原因多半是因为它如下的特点：A：本身知识很抽象、晦涩难懂，如：闭包、内置对象、DOM。B：本身内容很多，如函数库、对象库就一大堆。C：混合多种编程思想。它里面不但牵涉面向过程编程思想，又有面向对象编程思想，同
电脑要怎么设置才能共享打印机?
共享打印机前请确认，共享者的电脑和使用者的电脑是在同一个局域网内。一、在带有打印机的电脑上，将打印机共享出去。第一步、首先，确认与共享打印机相连的电脑处于开机状态，而且已经安装过打印机驱动程序，并且可实现正常打印，对于驱动安装在这里就不讲述
经常玩电脑、玩手机吃什么水果对眼睛好呀？
很多水果都营养丰富，口感绝佳，深得人们的喜欢。但是对于那些经常用眼的人来说，多吃一些对眼睛有好处的水果是十分必要的。大家都知道，眼睛的视力与维生素、蛋白质、矿物质等营养成分密不可分，缺乏某些维生素很容易形成眼部疾病。吃什么水果对眼睛好取决于
CSS这样的字体如何来设定
不管你怎么设置都不能一样的，要一样的话可以，但必须PS里面字体效果设置无。photoshop字体默认为平滑，也就是说字体边缘过度比较自然，不像网页排版时每个像素都很清晰，字体越大，锯齿形状就越明显。上面字体，网页里可以使用黑体或是微软雅黑。
韩剧《你好再见，妈妈！》在哪个软件可以看全集，度云在线资源都可以？
使用百度网盘分享给你链接: https:pan.baidu.coms1hzo1XCNUWon7kC3wQNAuVw提取码: 3gvc该剧讲述了已成鬼魂的女子获得新生机会，可以回到人世49天，再度出现于再婚的丈夫和幼女面前的暖心离别故
电脑录音怎么录
使用电脑Win 10系统自带的录音机可以进行声音的录制，使用方法如下：工具／原料：惠普G15、Windows10、本地设置1.0。1、屏幕左下角点击“开始”。2、在“最近添加”中找到“录音机”，点击。3、点击麦克风标志开始录制，再次点击
JS单选按纽组事件
&lthtml&gt &lthead&gt&lttitle&gttest&lttitle&gt&ltscript type="textjavasc
Python3脚本传参实战(2个方法3个传参列表的案例)
在一些测试平台对接时或者用例执行时，或多或少会用到Python脚本传参的问题。test.py脚本#!usrbinpython3 import sys print ('参数个数为:', len(s
UBB转换HTML请教
$Text=preg_replace("[img=(.+?),(.+?)](.+?)[img]is","&ltimg src=\3 width=\1 height=\2&g
长时间盯着电脑会头疼，是为什么？
长期对着电脑的话,头痛是很正常的.它有如下原因: 1.电脑总的来说可以把它当做一个微型的辐射源,不仅长时间面对电脑屏幕会头痛,同时脸上也会经常起一些小疙瘩.这也是为什么很多人在上通宵后脸上疙瘩更明显的原因. 2.电脑屏幕的高亮度.电脑屏幕有
双核cpu装什么系统好
中央处理器(CentralProcessingUnit)的缩写,即CPU,CPU是电脑中的核心配件,只有火柴盒那么大,几十张纸那么厚,但它却是一台计算机的运算核心和控制核心。下面是我带来的关于双核cpu装什么系统好的内容，欢迎阅读!
电脑单机游戏盒子哪个好用
1、2345游戏盒子2345游戏盒子中包涵了众多的网页游戏数和网络游戏，很多款热门经典单机游戏，经常推出好玩游戏，您可以在玩游戏的同时，浏览最新最热的资讯。2、快快游戏盒子快快游戏盒子里游戏品种全、数量多、更新快，有闪电云下载技术，下
手机蓝牙与电脑蓝牙连不上
有两种情况：一种情况是电脑自带蓝牙功能：这里以WIN7系统为例，一、打开”控制面板--设备与打印机dao“，右击蓝牙设备（如果该设备已添加时）--删除，如果之前没有添加该设备，此步骤可省略。二、添加设备，打开“控制面板--设备与打印机-

推荐阅读

热门文章

最新发布

标签列表

如何用shell获取html网页中指定的文本数据

给您推荐相同类型的内容：