【golang】海量数据去重-布隆过滤器

2023-02-26 06:03:02Python016

【golang】海量数据去重-布隆过滤器,第1张

在做域名爆破中，遇到了把一个300G的子域名json文件进行去重，一开始是考虑使用字典进行去重，但是数据量大了，会造成内存泄露。看网上资料介绍了一种方案，就是使用布隆过滤器。

布隆过滤器是一种数据结构，概率型数据结构，特定是高效插入和查询，可以用来告诉你“某一值一定不存在或者kennel存在”。

相比于传统的map、set等数据结构，占用空间更少，但其返回结果是概率型的，不确定。

布隆过滤器内部维护一个bitArray(位数组)，开始所有数据为0，当一个元素过来时，能过多个哈希函数（hash1、hash2、hash3）计算不同的hash值，并通过hash值找到bitArray的下标，将里面的值改为由0变为1。布隆过滤器有一个误判率，误判率越低，数组越长，所在空间越大，误判率越高，数组越小，所占空间越小。

这里贴上一个技术大牛的博客地址，里面对布隆过滤器用法以及在redis里面处理缓存穿透问题的详细介绍。

https://www.cnblogs.com/yscl/p/12003359.html

1、数组是多个相同类型的数据的组合，一个数组一旦声明/定义了，其长度是固定的，不能动态变化。

2、var arr []int 这时arr就是一个slice 切片。

3、数组中的元素可以是任何数据类型，包括值类型和引用类型，但是不能混用。

4、数组创建后，如果没有赋值，有默认值如下：

数值类型数组：默认值为 0

字符串数组：默认值为 ""

bool数组：默认值为 false

5、使用数组的步骤：

(1)声明数组并开辟空间

(3)给数组各个元素赋值

(3)使用数组

6、数组的下标是从0开始的。

7、数组下标必须在指定范围内使用，否则报panic:数组越界，比如var arr [5]int的有效下标为0~4.

8、Go的数组属于值类型，在默认情况下是值传递，因此会进行值拷贝。数组间不会相互影响。

9、如想在其他函数中去修改原来的数组，可以使用引用传递 (指针方式)。

10、长度是数组类型的一部分，在传递函数参数时，需要考虑数组的长度，看以下案例：

题1：编译错误，因为不能把[3]int类型传递给[]int类型，前者是数组，后者是切片；

题2：编译错误，因为不能把[3]int类型传递给[4]int类型；

题3：编译正确，因为[3]int类型传给[3]int类型合法。

数组类型过滤器下标数据结构

# 上一篇：如何为Linux安装Go语言

# 下一篇：c语言如何动态创建二维数组

给您推荐相同类型的内容：

求《Go语言编程》全文免费下载百度网盘资源,谢谢~
《Go语言编程》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms12soZuRrnDGL1HPKxA8ddoQ?pwd=hcru 提取码：hcru简介：这本书从整体的写作风格来说，会以介绍 Go 语言特性
学python推荐的10本豆瓣高分书单，小白到大佬，没看过太可惜了
前言：我自己整理了几本书籍的电子档，需要的可以私信我 “书籍” 免费领取本书一共12章，每一章都会用一个完整的游戏来演示其中的关键知识点，并通过编写好玩的小软件这种方式来学习编程，引发读者的兴趣，降低学习的难度。每章最后都会对
《Go语言程序设计》epub下载在线阅读全文，求百度网盘云资源
《Go 语言程序设计》（Mark Summerfield）电子书网盘下载免费在线阅读资源链接：链接: https:pan.baidu.coms1K7BruKMI3XzTHDK1obv8pg提取码: kqzi 书名：Go 语言
Go语言文件操作
本文主要介绍了Go语言中文件读写的相关操作。文件是什么？计算机中的文件是存储在外部介质（通常是磁盘）上的数据集合，文件分为文本文件和二进制文件。os.Open() 函数能够打开一个文件，返回一个 *File 和一个 er
Python中输出100除3 结果为33.333如何保留为33.333
首先除法, 如果要得到小数,那么除数或者被除数,至少有一个是浮点数1003.0其次,保留小数可以使用很多语言都用的一种方式 %.2f代码a = 1003.0print '%.3f'%a#.3f 保留3位小数首
15个Python入门小程序，你都知道哪些
有不少同学学完Python后仍然很难将其灵活运用。我整理15个Python入门的小程序。在实践中应用Python会有事半功倍的效果。实现数学里的二元二次函数：f(x, y) = 2x^2 + 3y^2
讲讲go语言的结构体
作为C语言家族的一员，go和c一样也支持结构体。可以类比于java的一个POJO。在学习定义结构体之前，先学习下定义一个新类型。新类型 T1 是基于 Go 原生类型 int 定义的新自定义类型，而新类型 T2 则是基于
MAC下的Ruby环境
Mac内部默认是有 ruby 环境的，可以通过 ruby -v 命令查看当前的版本。如果说要修改当前的Ruby版本，这个时候需要用到 rvm 工具，这款工具的全称是 Ruby Version Manager ，顾名思义它就是用来管理
n在c语言中是的解释是什么？
n在c语言中是的解释是：没有意义，＼n才有意义，是换行符。n在c语言中没有任何意思，就是符号／加上字母n，它不表示任何的意思。＼n是换行符，通常在输出中用作格式控制；＼n就是一个转义字符，其意义是“回车换行”。c语言的其他转义字符：
python中的“dir”和“help”作用是什么？
dir和help是Python中两个强大的built-in函数，就像Linux的man一样，绝对是开发的好帮手。比如查看list的所以属性:x0dx0adir(list)x0dx0a输出：x0dx0a['__add__
c语言条件表达式
问号表达式,问号前指条件,后面是结果.如果条件满足,那么取第一个值,如果不满足,取第二个值.换成if语句if(x&gty){z=xreturnz}else{z=yreturnz}if(n=c1)printf("%f&quo
女子监狱第三季ruby rose和女主是什么关系
也许是姐妹。监狱被国家“承包”给了私人业主，而私人业主为了盈利采取了一系列cost saving行动，包括狱警集体降薪、福利和上岗培训被取消，新狱警又因缺乏培训搞出一堆乌龙事件；狱中餐食变成了大袋子装的糊烂罐头食品；利用犯人接近免费的劳动力
【golang详解】go语言GMP(GPM)原理和调度
Goroutine调度是一个很复杂的机制，下面尝试用简单的语言描述一下Goroutine调度机制，想要对其有更深入的了解可以去研读一下源码。首先介绍一下GMP什么意思： G ----------- goroutine: 即Go协程
c语言提供的合法的数据类型关键字是
c语言提供的合法的数据类型关键字如下：c语言提供的合法的数据类型关键字是：char、double、enum、float、int、long、short、signed、struct、union、unsigned、void。大体上分为：int（整
go分析要多久
Go语言的分析取决于多方面的因素，如代码量、理解深度、复杂性等。如果是一般的小规模项目，比如几百行代码，那么通常需要几个小时来分析。但对于大规模项目，比如几万行以上，则需要更多的时间来分析，可能会有几天或更长的时间。同时，如果开发者对代码深
c语言如何动态创建二维数组
既然是动态创建，那么，所创建的二维数组的行、列数应该具有“普适”性，即，应由“用户”确定二维数组的规模。这是有难度的。因为，二维数组要牵扯行指针，且需要固定每行的列元素个数，用这种思路就没有办法达到“普适”。为此，必须清醒地知道，所谓二维数
如何用python语言监控文件或目录变化
import os, timepath_to_watch = "."before = dict ([(f, None) for f in os.listdir (path_to_watch)])while 1:time.
c语言如何动态创建二维数组
既然是动态创建，那么，所创建的二维数组的行、列数应该具有“普适”性，即，应由“用户”确定二维数组的规模。这是有难度的。因为，二维数组要牵扯行指针，且需要固定每行的列元素个数，用这种思路就没有办法达到“普适”。为此，必须清醒地知道，所谓二维数
一个C语言的执行是从_____
一个C语言的执行是从本程序的main函数开始，到main函数结束，但需要注意的是，也是有特殊情况的，若是代码中出现了exit函数，则直接结束程序。C 语言具有各种各样的数据类型, 并引入了指针概念, 可使程序效率更高。另外C 语言也具有强
怎么用C语言实现最小二乘法?
最小二乘法常用于根据实测数据求线性方程的最近似解。根据如图（图片引用于百度百科）的描述，利用C语言求，使用最小二乘法算法求线性方程的解，程序如下：#include &ltstdio.h&gt#define N 4
请教一个新手是否应该选择Ruby的疑惑
本文从RoR对Ruby的影响、Ruby的优势等多个角度分析了Ruby比Python成功的原因。伴随着RoR的风行，Ruby语言受到越来越多的开发者的关注，同为脚本语言，Python的地位却略显尴尬，什么样的原因，造成了这样的局面？笔者认
Golang中sync.Map的实现原理
前面，我们讲了map的用法以及原理 Golang中map的实现原理，但我们知道，map在并发读写的情况下是不安全。需要并发读写时，一般的做法是加锁，但这样性能并不高，Go语言在 1.9 版本中提供了一种效率较高的并发安全的 sync.Ma
c语言提供的合法关键字有那些？
C语言的关键字共有32个，根据关键字的作用，可分其为数据类型关键字、控制语句关键字、存储类型关键字和其它关键字四类。1、关于数据类型的关键字(12个)(1) char ：声明字符型变量或函数(2) double ：声明双精度变量或函数
Go语言和java，谁更有前途？
go语言和java，go语言更有前途。1.Java仍然是主流的企业级应用编程语言，看看阿里，华为等大厂的招聘岗位就知道了。2.Go语言代表了未来，很多新兴上市公司，如B站，高途课程等用Go做主编程语言。我所知道的一些创业公司，也开会尝试
Python设计模式：工厂方法模式
工厂，大家一般能想到的是生产产品的地方，在设计模式中，工厂可分为：简单工厂模式、工厂方法模式。在前期推文 Python 简单工厂模式中有关于简单工厂模式的解读。根据工厂的抽象程度可分为：工厂方法模式、抽象工厂模式。
Python如何计算序列长度
根据你之前的问题，假定你的数据符合这种格式：&gtSeqName1Seq1&gtSeqName2Seq2...这里不要求Seq1只占一行（即允许其中有换行符出现）。假如Seq总是只占一行的话，其实就是奇数行是名字，偶数行
python 为什么要使用静态方法
Python使用静态方法类似函数工具使用，一般尽量少用静态方法。Python的静态方法和类成员方法都可以被类或实例访问，两者概念不容易理清，但还是有区别的：1）静态方法无需传入self参数，类成员方法需传入代表本类的cls参数；2）从第1条
golang常用的包----写日志 log包
golang提供了一个简单的日志输出包log，常用用法，已经基本满足日常的日志输出需求 1、日志级别有3个，info，fatal,panic 2、日志文件的输出输出的结果 a.log [Debug]main.go:45:
go语言聊天室实现（七）websocket收消息设置
上一节中，我们为每个连接都创建了一个goroutine来读取其中的消息，现在我们将这个读取消息的方法实现一下。我们在application目录下新建controllers目录，并在其中创建一个MessageController.go文
GO语言入门，有什么好的教程啊？
可以学习黑马程序员的这个教程20小时快速入门go语言：网页链接go语言的优势可直接编译成机器码，不依赖其他库，glibc的版本有一定要求，部署就是扔一个文件上去就完成了。静态类型语言，但是有动态语言的感觉，静态类型的语言就是可以在编

推荐阅读

热门文章

最新发布

标签列表

【golang】海量数据去重-布隆过滤器

给您推荐相同类型的内容：