第270章寻知上线（2 / 5）_此生应无憾

在情报检索（或信息检索）领域，学术界已经就这一问题充分讨论过。

文本检索上，相关性基本上都是基于词频统计的，这一实践为早期的搜索引擎广泛采用。

当用户输入检索词时，搜索引擎会去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来。

相关性即搜索引擎的第一定律。

但进入互联网时代，由于谁都可以进行内容的发布，为了能够排在某些检索结果的前列，许多网页内容的制作者绞尽脑汁，在其页面上堆砌关键词，早期搜索引擎对此防不胜防，苦不堪言。

也因此，随着不短的探索和尝试，出现了业界公认的搜索引擎第二定律，即相关性定律。

类比科学论文的索引机制，哪篇论文被引用次数多，就被认为是权威高质量。

放在互联网上，就是哪个网页被链接次数多，那个网页就被认为是质量高。

这基于这一思想，李彦宏开发并申请了搜索引擎领域开创性的““超链分析技术”专利。

受李彦宏的启发，谷歌创始人也设计出日后用于谷歌引擎的核心算法PageRank。

只是搜索引擎并不是单纯的信息检索问题，而是包含了市场和企业经营的因素，做搜索引擎的人也是需要赚钱的。