Python 实现一个大数据搜索引擎需要多少行代码

2023-02-26 08:17:02Python014

Python 实现一个大数据搜索引擎需要多少行代码,第1张

十几万行吧

首先创建了一个容量为10的的布隆过滤器

然后分别加入 ‘dog’，‘fish’，‘cat’三个对象，这时的布隆过滤器的内容如下：

然后加入‘bird’对象，布隆过滤器的内容并没有改变，因为‘bird’和‘fish’恰好拥有相同的哈希。

最后我们检查一堆对象（’dog’, ‘fish’, ‘cat’, ‘bird’, ‘duck’, ’emu’）是不是已经被索引了。结果发现‘duck’返回True，2而‘emu’返回False。因为‘duck’的哈希恰好和‘dog’是一样的。

主要分割

主要分割使用空格来分词，实际的分词逻辑中，还会有其它的分隔符。例如Splunk的缺省分割符包括以下这些，用户也可以定义自己的分割符。

] ( ) { } | ! , ‘ ” *\n\n s\t &amp? + %21 %26 %2526 %3B %7C %20 %2B %3D — %2520 %5D %5B %3A %0A %2C %28 %29

搜索

好了，有个分词和布隆过滤器这两个利器的支撑后，我们就可以来实现搜索的功能了。

上代码：

Splunk代表一个拥有搜索功能的索引集合

每一个集合中包含一个布隆过滤器，一个倒排词表（字典），和一个存储所有事件的数组

当一个事件被加入到索引的时候，会做以下的逻辑

为每一个事件生成一个unqie id，这里就是序号

对事件进行分词，把每一个词加入到倒排词表，也就是每一个词对应的事件的id的映射结构，注意，一个词可能对应多个事件，所以倒排表的的值是一个Set。倒排表是绝大部分搜索引擎的核心功能。

当一个词被搜索的时候，会做以下的逻辑

检查布隆过滤器，如果为假，直接返回

检查词表，如果被搜索单词不在词表中，直接返回

在倒排表中找到所有对应的事件id，然后返回事件的内容

更复杂的搜索

更进一步，在搜索过程中，我们想用And和Or来实现更复杂的搜索逻辑。

上代码：

最初有一个想法，就是用程序来写一个类似搜索引擎的爬虫，然后24小时循环抓取互联网上尽可能多的网站数据。

接着用这个数据来配合做seo。目前已经完成了24小时不间断抓取Url部分。主要是用python做的。其他程序也试过。但是效率太低、要么耗内存。还是python最好。

我的问题是：有没有python方面经验丰富的朋友？能够提供一些方向的？比如正文提取这一部分，这个有现成的模块吗？自己写的话，有点难度。我查过资料，python有爬虫类的模块。但是还没接触过。希望能有前辈可以指导一下。真的，在此谢过了。

还有就是，想问下做这个东西你觉得有意义吗？

【回复】

首先要肯定，你做这个开发是很有意义的。我去年的时候用C#开发过一个蜘蛛抓取系统和正文分析系统，虽然比较粗糙，但是也从过程中感悟到了更深刻SEO优化策略。

例如配额的问题，我在家里自己架服务器然后一个抓一个分析，一切都是以低费用原则展开的，所以带宽自然是不充裕的。这个情况下我就深刻的意识到要抓什么网站，要抓什么类型的页面，时间和线程怎么分配比例，哪些内容是长期不更新的，哪些是具有实时更新意义的等等，通常做SEO的朋友，没办法真的换位去思考这些内容，所以只能等着别分享后再去思考，但是大多数分享也是浅尝则止，具体的细节和原则还是需要自己去摸索和实验的。

另外当我试图去分析HTML的时候，就遇到了前所未有的“无限可能”，因为你的思路几乎是瞬间爆炸了，什么导航条面包屑，页面噪音（代码层面，内容层面），HTML的标准化（涉及到DOM树是否正确的解析），H1优化，寻找最大正文段落等等，太多的细节可以去做分析。

其中我做了一个关于页面噪音的小测试，就是去试图针对一个网站，通过对比HTML获得类目框架。目的就是不想乱七八糟的内容影响我分析正文，所以这里要最基础的去除噪音。这样一来，周边零散的代码就被我视为“低质量的，可忽略的，重要性较低的”的内容。

又例如如何判断页面类型呢？列表页和内容页？不同的页面也会影响二次抓取的频率，因为列表页很显然更具备更新能力，而内容页则相对不更新（主内容框架内不更新，周边框架内容更新，但意义不大）。所以当搜索什么“列车时刻”一类的词，默认列表页会有更大的机会，而当你搜索知识性内容则内容页会有更大的可能性。当然这些都是可以通过系统设置的一个“偏重权重”来实现。

总的来说，当你开发一个搜索引擎的时候，哪怕这个搜索引擎再简单和粗糙，你也会真正的有机会站在搜索引擎的角度去思考SEO，这种思考和感悟是深刻而实际的，远比盲人摸象更有指导意义。

python中，有三个库可以解析html文本，HTMLParser,sgmllib,htmllib。但是更推荐你试试BeautifulSoup。

关于正文的提取，不知道你是要所有正文文本的提取，还是最核心的内容的判断。

如果是提取所有HTML标签内的文本，那么解析器遍历一下，就可以获得一个清单了。

如果你要获得一个“相对最重要正文区域”，那么就需要根据每一个DOM树中的内容量做一个初步的判断，当然如果要更准确无误的判

断正文，还需要其他很多细节的验证操作。

顺着你的话题，我在扩展一下。

我建议大家有时间可以阅读有关“方_法_论”方面的书籍，因为通常，我们在一个行业或一个职位上，所关注和处理的工作，都是一个整

体系统中的一个局部，而是否能尽量多的去理解这个整体系统，对我们的控制能力来说，是至关重要的。所以真正要做好SEO，就不能

仅仅追求SEO的技巧，要更多时间去理解搜索引擎。

淘宝也好，亚马逊（海外）也好，百度也好，都是一个平台，我们无论要做运营，还是SEO，其本质都是充分的获得平台的资源分配。

这个时候谁能站在平台的角度，谁就有更大的竞争力。这就好比产品经理们常常说的，站在用户的角度去开发产品。