最新发布

# 2023-02-17
js里的返回值怎么获取到
1、首先，新建一个html5文件，输入初始化代码。2、新建一个h1标签，用于接收到时js中function函数的返回值。3、新建一个script标签，在标签里面新建一个function函数，函数返回值为22。4、在h1标签中也新建一个scr
# 2023-02-17
js点击弹出询问框是否添加至购物车localstorage
是。js点击弹出询问框由于没有本地存储，不会调取数据，因此是添加至购物车localstorage。在点击文件链接的时候，弹出询问框是操作系统本身设置好的，任何一个电脑的IE都一样会弹出。 &ltstyle&gt
# 2023-02-17
Js表单提交
表单提交是刚开始学js的朋友很迷惑的一个问题，怎么提交，怎么阻止默认提交，怎么提交表单不跳转等等问题，下面是一些示例原始的表单提交有 button 按钮提交和 &ltinput &gt类型的。它们又什么区别呢？
# 2023-02-17
js字符串的长度
字符串的最大长度与js中能表达的【最大安全整数】有关系，这是为什么呢 utf-16相关：符号位1 指数为11 位位尾数位52(1+11+52=64) 那应该是2^52-1 才对，但小数点
# 2023-02-17
js表单验证代码怎么写
我来举个例子，很简单的&lt!DOCTYPE html&gt&lthtml&gt&lthead&gt&ltmeta charset="UTF-8"&gt&a
# 2023-02-17
JS中都有哪些数据类型？
js中有5种数据类型：Undefined、Null、Boolean、Number和String。x0dx0a还有一种复杂的数据类型Object，Object本质是一组无序的名值对组成的。x0dx0aUndefined类型只有一个值，
# 2023-02-17
js正则匹配总结
js匹配是js中比较重要的一个概念，我们在工作中经常用到，但是往往都是记得不是很清楚，或者有些遗忘，这次记录总结一下，让自己加深一下印象，同时也会小伙伴们提供查阅资料的地方正则匹配模式分为两种，一种是贪婪模式，另一种是非贪婪模式
# 2023-02-17
JS获取地址栏url参数
本章内容分为三部分：开始之前先简单了解一下如：url地址:http:xxxxx:9010test.html?leaf&ample=2window.location.search获取到的就是 ?leaf&
# 2023-02-17
解析JS （Gson）
创建AsyncTask对象AsyncTaskasyncTask = new AsyncTask() { @Override protected void onPreExecute() { super.onP
# 2023-02-17
javascript 点击按钮触发事件
使用onclick（）点击事件触发。1、设计一个功能页面，HTML代码如下。2、此时的页面展示效果如下。3、设计功能函数，实现上图中赋值的功能。4、给按钮绑定上述函数，点击实现。5、在页面上点击函数，查看执行效果。扩展资料：onclic

使用pyspider抓取起点中文网小说数据

2023-04-28 20:26:02JavaScript028

使用pyspider抓取起点中文网小说数据,第1张

pyspider 是国人开发的相当好用的爬虫框架。虽然网上教程不是很多，但是文档详细，操作简单，非常适合用来做爬虫练习或者实现一些抓取数据的需求。

本文就以抓取起点中文小说网的小说作品基础信息作为目标，讲解如何使用pyspider框架采集数据。

关于为何要选择起点作为目标，其一、笔者作为网文爱好者，也想收集起点小说作品信息，找些热门小说看；其二、起点作为比较成熟的小说网站，再反爬虫方面应该有对应策略，刚好练习一下爬虫怎么规避这些策略。

在阅读本文之前，建议先看一下文档及框架作者本人写的中文教程

pyspider 爬虫教程（一）：HTML 和 CSS 选择器

pyspider 爬虫教程（二）：AJAX 和 HTTP

pyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

安装很简单，如果已安装pip，直接执行命令

由于目前很多网站都是动态js生成页面，需要安装 PhantomJS 来获得js执行后的页面，而不是原本静态的html页面，我们再来装一下

待安装完成后，我们先看一下pyspider对应的可执行命令

在这里我们直接执行如下命令启动,更复杂的命令参看文档

首先看一下启动成功后，浏览器访问127.0.0.1:5000地址的界面如下

点击Create，新建项目

点击生成的项目名，进入脚本编写&调试页面

先看一下对应的爬虫脚本

1.测试抓取时，运行一段时间后出现所有抓取链接均FetchError的报错，抓取失败

失败原因：未设置User-Agent 及抓取速率太快，导致IP被封禁

解决办法：

1) 设置User-Agent，调整速率从1->0.7

2) 使用代理IP，防止被封禁，这里笔者尝试使用搭建简易免费代理IP池，但是由于免费代理大多不可用，会导致抓取不稳定,还是决定放弃使用

2.笔者本来是打算通过不断抓取下一页的链接，来遍历所有小说作品的，可是由于这部分是JS动态生成的，虽然使用phantomjs，能解决这个问题(具体见作者教程3)，但是使用phantomjs会导致抓取效率变低，后来还是选择采用固定首尾页数（PAGE_START，PAGE_END）的方法

3.当使用css选择器有多个数据时，怎么获取自己想要的

比如在小说详细页，有字数，点击数，推荐数三个

其css selector均为 .book-info >p >em，要获取对应的次数只能使用pyquery的.eq(index)的方法去获取对应的文本数据了

4.如果遇到抓取的链接是https,而不是http的，使用self.crawl()方法时，需要加入参数validate_cert =False，同时需要确保pyspider --version 版本再0.3.6.0之上

具体解决方法，可以查看如下链接：

PySpider HTTP 599: SSL certificate problem错误的解决方法

简单数据分析之二

采用 SCWS 中文分词对所有作品名字进行分词统计，得到出现频率最高的排行

看起来如果写小说，起个『重生之我的神魔异世界』这类标题是不是吊炸天

简单数据分析之三

简单统计一下起点作者的作品数排序

武侠精品应该是起点的官方作者号吧，不然194本作品也太恐怖了

也发现了不少熟悉的大神，比如唐家三少，流浪的蛤蟆，骷髅精灵等，有些作品还是可以看看的

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

词库加载错误未能找到文件“E高铁采集器内存溢出ConfigurationDictStopwordstxt”

# 上一篇：java怎么连接sql2008

# 下一篇：C语言学习和资料下载网址