【golang】海量数据去重-布隆过滤器

2023-02-27 22:54:01Python014

【golang】海量数据去重-布隆过滤器,第1张

在做域名爆破中，遇到了把一个300G的子域名json文件进行去重，一开始是考虑使用字典进行去重，但是数据量大了，会造成内存泄露。看网上资料介绍了一种方案，就是使用布隆过滤器。

布隆过滤器是一种数据结构，概率型数据结构，特定是高效插入和查询，可以用来告诉你“某一值一定不存在或者kennel存在”。

相比于传统的map、set等数据结构，占用空间更少，但其返回结果是概率型的，不确定。

布隆过滤器内部维护一个bitArray(位数组)，开始所有数据为0，当一个元素过来时，能过多个哈希函数（hash1、hash2、hash3）计算不同的hash值，并通过hash值找到bitArray的下标，将里面的值改为由0变为1。布隆过滤器有一个误判率，误判率越低，数组越长，所在空间越大，误判率越高，数组越小，所占空间越小。

这里贴上一个技术大牛的博客地址，里面对布隆过滤器用法以及在redis里面处理缓存穿透问题的详细介绍。

https://www.cnblogs.com/yscl/p/12003359.html

Grafana是一款用Go语言开发的开源数据可视化工具，可以做数据监控和数据统计，带有告警功能。目前使用grafana的公司有很多，如paypal、ebay、intel等。

①可视化：快速和灵活的客户端图形具有多种选项。面板插件为许多不同的方式可视化指标和日志。

②报警：可视化地为最重要的指标定义警报规则。Grafana将持续评估它们，并发送通知。

③通知：警报更改状态时，它会发出通知。接收电子邮件通知。

④动态仪表盘：使用模板变量创建动态和可重用的仪表板，这些模板变量作为下拉菜单出现在仪表板顶部。

⑤混合数据源：在同一个图中混合不同的数据源!可以根据每个查询指定数据源。这甚至适用于自定义数据源。

⑥注释：注释来自不同数据源图表。将鼠标悬停在事件上可以显示完整的事件元数据和标记。

⑦过滤器：过滤器允许您动态创建新的键/值过滤器，这些过滤器将自动应用于使用该数据源的所有查询。

Dashboard的建立都是基于某一个数据源的，所以要先加一个数据源。

可视化方式有很多种，不过Graph、Table、Pie chart 这三种基本就已经满足数据展现要求了。

把这个Graph折线图Copy一份，改一下展现方式即可。

注意：默认添加完table后，如果有数字，会以K为单位，比如将300000展示位30k。

数字展示方式修改，Add column style：

当表格中出现数据后，需要通过筛选条件进行筛选，grafana提供了模板变量用于自定义筛选字段。

Type:定义变量类型

Query:这个变量类型允许您编写一个数据源查询，该查询通常返回一个 metric names, tag values or keys。例如，返回erver names, sensor ids or data centers列表的查询。

interval:interval值。这个变量可以代表时间跨度。不要按时间或日期直方图间隔硬编码一个组，使用这种类型的变量。

Datasource:此类型允许您快速更改整个仪表板的数据源。如果在不同环境中有多个数据源实例，则非常有用。

Custom:使用逗号分隔列表手动定义变量选项。

Constant:定义一个隐藏常数。有用的metric路径前缀的dashboards，你想分享。在dashboard export,期间，常量变量将作为一个重要的选项。

Ad hoc filters:非常特殊类型的变量，只对某些数据源，InfluxDB及Elasticsearch目前。它允许您添加将自动添加到使用指定数据源的所有metric查询的key/value 过滤器。

上面的Table和Graph分别使用了interval和query来定义变量进行筛选，不再重复。

grafana只有graph支持告警通知。

grafana的告警通知渠道有很多种，像Email、Teams、钉钉等都有支持。

在grafana.ini中开启告警：

要能发送邮件通知，首先需要在配置文件grafana.ini中配置邮件服务器等信息：

Grafana是个功能强大、展现层很漂亮的数据可视化监控工具，本篇主要介绍了Grafana基于MySQL数据源的安装及常用姿势，也支持其他数据源如ElasticSearch、InfluxDB等。更多内容可看官网

1.用{{}}包围的是变量，如 {{testName}} ，这表示把给定变量的值插入, {%%}这是块元素在faygo里叫tag,常见的有 for , if 等

2.如何在模板中定义变量，平常我们在使用的模板的时候的常会有这样的需要，在模板中要定义一个变量以方便前端逻辑的实现，在faygo模板中定义变量需要用到标签{%set%}

使用方法

{#定义变量 newName #}

{% set newName = "hello faygo" %}

{#获取变量newName的值#}

定义用 tag set 取值就是上文所提到的{{}}取值

3.在模板中调用方法

这也是一个非常常见和有用的方法，在faygo中调用方法有两种方式，一是在渲染模板时在faygo.Map在加入你要调用的方法，二是注册一个全局的方法（在faygo里叫filter过滤器），我们分别来看一下每个方法的实现

1）在渲染模板时加入方法（render）

//在后端render时加入方法 testFunc

rErr := ctx.Render(200, switchDir+"index.html", faygo.Map{

"TITLE": title,

"testMap":map[string]string{"aaa": "111111"},

"testFunc": func(s string) string {

return s + " this is test func"

})

{#前端模板中调用#}

结果如下

hello this is test func

这种方法适合只用于此模板一个特殊方法，在其它功能中不通用，那么如果想定义一个方法全局都可以使用怎么办，这里就需要注册全局方法了（见下文）

2）注册全局方法（过滤器）

如果想定义一个方法全局都可以使用怎么办，这里就需要注册一个方法

// pongo2 注册一个全局过滤器，一般在程序启动时init中注册

//这里注册了一个名叫testFilter的过滤器，指向TestFilterFunc方法

pongo2.RegisterFilter("testFilter", TestFilterFunc)

func TestFilterFunc(in, param *pongo2.Value) (*pongo2.Value, *pongo2.Error) {

a := in.String() + " this is global filter"

return pongo2.AsValue(a), nil

}

在这里我们看到TestFilterFunc方法里接收参数和返回参数的类型是pongo2.Value和pongo2.Error

在注册过滤器里方法的接收参数和返回参数是固定的这两个不能改变

官网的话：

All functions’ parameters types must be of either your own type or of type *pongo2.Value(no matter how many) and functions must return one value of either type *Value or your own one.

那么我们返回数据时怎么返回？在上面例子在我们看到了 AsValue 这个方法可以将我们数据返回，我们可以返回struct,map,array,string 等

在前端调用

结果：

hello this is global filter

返回结构体：

type LoginUserInfo struct {

Username string `json:"username"`

Telephone string `json:"telephone"`

Email string `json:"email"`

Level int`json:"level"`

}

func TestFilterFunc(in, param *pongo2.Value) (*pongo2.Value, *pongo2.Error) {