在情报检索(或信息检索)领域,学术界已经就这一问题充分讨论过。
文本检索上,相关性基本上都是基于词频统计的,这一实践为早期的搜索引擎广泛采用。
当用户输入检索词时,搜索引擎会去找那些检索词在文章(网页)中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最后排出一个结果来。
相关性即搜索引擎的第一定律。
但进入互联网时代,由于谁都可以进行内容的发布,为了能够排在某些检索结果的前列,许多网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,早期搜索引擎对此防不胜防,苦不堪言。
也因此,随着不短的探索和尝试,出现了业界公认的搜索引擎第二定律,即相关性定律。
类比科学论文的索引机制,哪篇论文被引用次数多,就被认为是权威高质量。
放在互联网上,就是哪个网页被链接次数多,那个网页就被认为是质量高。
这基于这一思想,李彦宏开发并申请了搜索引擎领域开创性的““超链分析技术”专利。
受李彦宏的启发,谷歌创始人也设计出日后用于谷歌引擎的核心算法PageRank。
只是搜索引擎并不是单纯的信息检索问题,而是包含了市场和企业经营的因素,做搜索引擎的人也是需要赚钱的。