向量空间计算相关性的本质

藏书人摘要:由于早期的搜索沿用的借助倒排表,使用布尔模型是0和1的二元逻辑,使用逻辑符号and ort来组织关键词的表达式,所以造成信息检索的结果查全率高,查准率底。但是仍然为大多搜索引擎所使用,尤其是专家检索。 虽然布尔模型有确切的表达式,但是通常很...
由于早期的搜索沿用的借助倒排表,使用布尔模型是0和1的二元逻辑,使用逻辑符号and or  not来组织关键词的表达式,所以造成信息检索的结果查全率高,查准率底。但是仍然为大多搜索引擎所使用,尤其是专家检索。

虽然布尔模型有确切的表达式,但是通常很难将用户的需求信息转化为布尔表达式。

介于此为了增加词和信息之间的相关性,搜索开发出了,向量模型,概率模型,神经网络模型,贝叶斯模型等等。实际做的工作是一致的,都是在增加相关性的计算。以求达到和检索者的思维的统一。

向量空间模型是比较经典的一个模型,借助余弦值获得相关性的值,但是其中词频的作用还是不容忽视,精确的绝对词频,也就是文档中词频的绝对数量,相对词频为归一化的词频,其计算方法用tf-idf公式。

以上文章转自大地seo博客
下一篇:换个角度理解SEO 摘要: 链接   一个人要在社会中生活、学习、工作,就要与人交往,不然没有任何人知道你是谁,也很难在社会中生存下去。   一个网站或网页建起来后,就要提交到搜索引擎,再与别的网站相互链接,不然搜索引擎就不会来检索你的网站,搜索引擎中没有网站
相关文章:
  • 蚁群算法
  • 搜索引擎三大定律
  • 正排计算与数组
  • 大地优化的本质
  • 搜索引擎的算法
  • GOOGLE搜索引擎蜘蛛的等级