python爬虫环境准备之mongodb

Python020

python爬虫环境准备之mongodb,第1张

MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。

www.mongodb.org/downloads

首先下载 brew官网中的mongodb规则,

下载成功时会有如下类似字眼:

在这里,我们安装mongodb的4.4版本,可使用如下命令安装:

安装成功后会有如下类似提示:

根据提示可知道,后台运行mongodb的方式:

停止后台服务:

前台运行的方式如下:

查看运行中的mongodb:

由以上可知道,已在运行中。

配置文件,/usr/local/etc/mongod.conf

日志目录:/usr/local/var/log/mongodb

数据目录:/usr/local/var/mongodb

可以直接在命令行下进入shell交互窗口

以json数组形式导出kk库的col集合的所有数据到mon.json文件中

以json数组的形式把mon.json里面的数据导入到kk库的 kcol集合中

查询中有一些特殊的操作符需要注意:

概括下查询相关的操作符 1.常规的比较查询操作符

2.常规的查询操作符

3.元数据查询操作符

4.聚合操作符

说明: 第一条命令,是往集合中添加一条数据;

第二条命令,是往集合中添加多条数据,insertMany的参数是数组形式;

说明: 第一条命令,是把值为1的x更改为值加3,x=4

第二条命令,是把所有值为1的x更改为值加3,x=4

第三条命令,是把值为1的x更改y,改的是key,值不变

更新相关的操作符

说明: 第一个命令是删除ac值为d的数据

第二个命令是删除ac值为a开头的数据,这里使用了mongo 的关键词“$regex”,意思后面的值是正则表达式

最后一个是删除collection下面的所有数据

安装成功后:

运行结果如下:

用Python开发爬虫很方便。

本质:抓取---分析---存储

要点:

(1)get请求:最基本抓取。用到 urllib  urllib2  requests  httplib2 。

(2)表单登陆:向服务器发送post请求,服务器再将返回的cookie存入本地

(3)使用cookie登陆:

(4)对于反爬虫机制的处理:

(5)对于断线重连:使用multi_session和multi_open对爬虫抓取的session或opener进行保持

(6)多线程抓取

(7)对于Ajax请求

(8)自动化测试工具Selenium

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入

出现下面的提示这证明已经安装成功

如果想验证 open ssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。

接下来直接安装 Scrapy 即可

安装完毕之后,输入 scrapy

注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。

如果出现如下提示,这证明安装成功

下面是stackoverflow上的高票解决办法:

I've just fixed this issue on my OS X.

Please backup your files first.

Scrapy 1.0.0 is ready to go.

一.安装Python及基础知识

<一>.安装Python

在开始使用Python编程之前,需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装,windows中需要去官网downloads页面下载。具体步骤如下:

第一步:打开Web浏览器并访问官网;

第二步:在官网首页点击Download链接,进入下载界面,选择Python软件的版本,作者选择下载python 2.7.8,点击“Download”链接。

Python下载地址:

第三步:选择文件下载地址,并下载文件。

第四步:双击下载的“python-2.7.8.msi”软件,并对软件进行安装。

第五步:在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:\Python27”,点击“Next”按钮,如图所示。

注意1:建议将Python安装在C盘下,通常路径为C:\Python27,不要存在中文路径。

在Python安装向导中选择默认设置,点击“Next”,选择安装路径,这里设置为默认的安装路径“C:\Python27”,点击“Next”按钮。

安装成功后,如下图所示: