python爬虫环境准备之mongodb

Python015

python爬虫环境准备之mongodb,第1张

MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。 在高负载的情况下,添加更多的节点,可以保证服务器性能。 MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。

www.mongodb.org/downloads

首先下载 brew官网中的mongodb规则,

下载成功时会有如下类似字眼:

在这里,我们安装mongodb的4.4版本,可使用如下命令安装:

安装成功后会有如下类似提示:

根据提示可知道,后台运行mongodb的方式:

停止后台服务:

前台运行的方式如下:

查看运行中的mongodb:

由以上可知道,已在运行中。

配置文件,/usr/local/etc/mongod.conf

日志目录:/usr/local/var/log/mongodb

数据目录:/usr/local/var/mongodb

可以直接在命令行下进入shell交互窗口

以json数组形式导出kk库的col集合的所有数据到mon.json文件中

以json数组的形式把mon.json里面的数据导入到kk库的 kcol集合中

查询中有一些特殊的操作符需要注意:

概括下查询相关的操作符 1.常规的比较查询操作符

2.常规的查询操作符

3.元数据查询操作符

4.聚合操作符

说明: 第一条命令,是往集合中添加一条数据;

第二条命令,是往集合中添加多条数据,insertMany的参数是数组形式;

说明: 第一条命令,是把值为1的x更改为值加3,x=4

第二条命令,是把所有值为1的x更改为值加3,x=4

第三条命令,是把值为1的x更改y,改的是key,值不变

更新相关的操作符

说明: 第一个命令是删除ac值为d的数据

第二个命令是删除ac值为a开头的数据,这里使用了mongo 的关键词“$regex”,意思后面的值是正则表达式

最后一个是删除collection下面的所有数据

安装成功后:

运行结果如下:

(1)先在mongodb中执行

ISODate("2015-02-01T00:00:00Z").valueOf()

会得到

1422748800000

(2)使用可以使用以下条件进行查询

"lastAccessTime" : {$gte: new date(1422748800000)}

但是在python中会提示语法错误,

可以按照如下来解决:

from datetime import datetime

查询条件可以写成

"lastAccessTime" : {"$gte": datetime(2015, 2, 1)}

这样就可以解决了。