最新发布

# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本
# 2023-02-09
鸿蒙系统在线铃声免费吗
鸿蒙系统在线铃声部分是免费的。鸿蒙系统上有一些在线铃声是免费的，但不是所有都是免费的，毕竟运营商还是要赚钱的，如果不想付费可以在一些免费的资源里寻找一个自己最喜欢的，愿意的话可以找自己喜欢的铃声付费，付费的铃声还是比较丰富的，可以选择的很多
# 2023-02-09
HarmonyOS——Ability和AbilitySlice生命周期(一)
HarmonyOS 中的页面会用到Ability和AbilitySlice。Ability是提供与用户交互的能力。AbilitySlice是一个页面及其逻辑的总和。两者的关系可以是一对多。也就是一个Ability中可以包含多个不同的A
# 2023-02-09
华为HarmonyOS与安卓对比：鸿蒙系统的强大不止于此
自从HarmonyOS 2上线后，HarmonyOS优越的性能表现让大家眼前一亮，我认为该系统最大的优点就是可在后台打开多个大型游戏且能保持游戏不中断，即后台保活率高。据测评媒体@小白测评的实验数据显示搭载H
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
华为首款三分频智能音箱，HarmonyOS家族的颜值与音质担当
HUAWEI Sound X系列从2019年正式推出之后，便备受用户好评。第一代HUAWEI Sound X与帝瓦雷联合设计，在智能音箱当时大多处于功能性的大环境下，第一代HUAWEI Sound X让用户体验到了智慧与音质并
# 2023-02-09
harmonyos花式字体怎么调节
1、首先，打开harmonyos手机，然后点击打开设置，点击显示。2、其次，在显示页面中，点击字体大小和粗细。3、最后，在字体大小和粗细中点击字体样式，然后选择花式字体即可调节。华为鸿蒙系统已经上线，那么对于这个系统而言，华为在其他的配套方

java爬虫抓取指定数据

2023-02-23 22:06:02Python026

java爬虫抓取指定数据,第1张

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

1.你可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException

import org.htmlparser.visitors.HtmlPage

import org.htmlparser.Parser

import org.htmlparser.filters.HasAttributeFilter

import org.htmlparser.util.NodeList

public class htmlmover {

public static void main(String[] args){

NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/")

System.out.println(rt.toHtml())

}

public static NodeList getNodeList(String url){

Parser parser = null

HtmlPage visitor = null

try {

parser = new Parser(url)

parser.setEncoding("GBK")

visitor = new HtmlPage(parser)

parser.visitAllNodesWith(visitor)

} catch (ParserException e) {

e.printStackTrace()

}

NodeList nodeList = visitor.getBody()

return nodeList

}

}

以上代码，public static NodeList getNodeList(String url) 为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK") 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点

<div id="sw01_con1">

<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">

<thead>

<tr>

<th width="85" align="center" class="th_l">交易币种</th>

<th width="80" align="center">交易单位</th>

<th width="130" align="center">现价(人民币)</th>

<th width="80" align="center">卖出价</th>

<th width="100" align="center">现汇买入价</th>

<th width="95" align="center">现钞买入价</th>

</tr>

</thead>

<tbody>

<tr align="center">

<td>英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<td class="no">962.6</td>

</tr>

<tr align="center" bgcolor="#f2f3f4">

<td>港币</td>

<td>100</td>

<td>81.54</td>

<td>82.13</td>

<td>81.81</td>

<td class="no">81.16</td>

</tr>

<tr align="center">

<td>美元</td>

<td>100</td>

<td>635.49</td>

<td>639.35</td>

<td>636.8</td>

<td class="no">631.69</td>

</tr>

<tr align="center" bgcolor="#f2f3f4">

<td>瑞士法郎</td>

<td>100</td>

<td>710.89</td>

<td>707.78</td>

<td>702.14</td>

<td class="no">680.46</td>

</tr>

<tr align="center">

<td>新加坡元</td>

<td>100</td>

<td>492.45</td>

<td>490.17</td>

<td>486.27</td>

<td class="no">471.25</td>

</tr>

<tr align="center" bgcolor="#f2f3f4">

<td>瑞典克朗</td>

<td>100</td>

<td>93.66</td>

<td>93.79</td>

<td>93.04</td>

<td class="no">90.17</td>

</tr>

<tr align="center">

<td>丹麦克朗</td>

<td>100</td>

<td>116.43</td>

<td>115.59</td>

<td>114.67</td>

<td class="no">111.13</td>

</tr>

<tr align="center" bgcolor="#f2f3f4">

<td>挪威克朗</td>

<td>100</td>

<td>110.01</td>

<td>109.6</td>

<td>108.73</td>

<td class="no">105.37</td>

</tr>

</tbody>

</table>

</div>

大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import java.util.ArrayList

import java.util.regex.Matcher

import java.util.regex.Pattern

import org.htmlparser.Node

import org.htmlparser.NodeFilter

import org.htmlparser.Parser

import org.htmlparser.util.NodeList

import org.htmlparser.util.ParserException

public class Currencyrate {

public static void main(String[] args){

String url="http://forex.hexun.com/rmbhl/"

ArrayList<String>rt= getNodeList(url)

for (int i = 0i <rt.size()i++){

System.out.println(rt.get(i))

}

}

public static ArrayList<String>getNodeList(String url){

final ArrayList<String>result=new ArrayList<String>()

Parser parser = null

NodeList nodeList=null

try {

parser = new Parser(url)

parser.setEncoding("GBK")

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

Node need=node

if(getStringsByRegex(node.getText())){

for(int i=0i<6i++){

result.add(need.toPlainTextString()) need=need.getPreviousSibling().getPreviousSibling()

}

return true

}

return false

}

}

)

}catch (ParserException e) {

e.printStackTrace()

}

return result

}

public static boolean getStringsByRegex(String txt) {

String regex="td class=\"no\""

Pattern p = Pattern.compile(regex)

Matcher m = p.matcher(txt)

if (m.find()){

return true

}

return false

}

}

废话不多说，

public static ArrayList<String>getNodeList(String url) 主要方法

parser.setEncoding("GBK")需要注意，代码编码格式

nodeList = parser.parse(

new NodeFilter(){

@Override

public boolean accept(Node node){

}

｝

)

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor)就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是

public boolean accept(Node node){

Node need=node

if(getStringsByRegex(node.getText())){

for(int i=0i<6i++){

result.add(need.toPlainTextString())need=need.getPreviousSibling().getPreviousSibling()

}

return true

}

return false

}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\""

Pattern p = Pattern.compile(regex)

Matcher m = p.matcher(txt)

if (m.find()){

return true

}

return false

}

大家可以发现我们索要的每一段都是

<tr align="center">

<td>英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<td class="no">962.6</td>

</tr>

所以只要找到<td class="no">这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\"" 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int i=0i<6i++){

result.add(need.toPlainTextString()) need=need.getPreviousSibling().getPreviousSibling()

}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayList<String>中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayList<String>，就可以显示到我们所需要的Java widget上去了

节点代码克朗内容网页

# 上一篇：R语言可视化及作图6--ggplot2之点图、条形图、盒形图、直方图、线图

# 下一篇：如何使用Xcode学习C语言