hit的深解和SEO的结合

藏书人摘要:SEO的研究离不开多搜索引擎的深入的研究。有一篇文章我没事就拿出来阅读,这就是谷歌创始人,佩奇和布林在还没有成立谷歌公司时发布的一篇文章。 在这篇文章中,你仔细的阅读可以发现谷歌的大致计算的框架,索然随着时代核技术的发展,改变是必然的,但是核心的框架还是...

SEO的研究离不开多搜索引擎的深入的研究。有一篇文章我没事就拿出来阅读,这就是谷歌创始人,佩奇和布林在还没有成立谷歌公司时发布的一篇文章。 在这篇文章中,你仔细的阅读可以发现谷歌的大致计算的框架,索然随着时代核技术的发展,改变是必然的,但是核心的框架还是不会有太大的变化。这也就是这篇 文章的意义所在。

        这里我就其中的hit 进行以下深入的剖析,深刻理解搜索的命中原理。

 

              这里的repository库是个压缩网页后存放的信息仓库。这里也构成了一个ip(域名)下你的网站的网页集合。所有的网页被赋予一个docid。其中 的索引功能是由索引器indexer 和排序器sorter来执行完成。Indexer读取repository的文件,并将其转换为一系列的关键字排序,称为命中hits。这些词语由 Indexer被放入到barrels不同的桶中,建立了部分排序的好了的正向索引。Indexer还分离出网页中的所有链接,将重要的信息存放在 Anchors文件之中。这个文件包含的信息可以确定链接的指向和链接的描述文本。

这个我深入的研究过,也就是正排索引建立的过程。对于词的特征项,四项,这个google描述是“出现在文件的位置,字体的相对大小和字母的大小 写。”实际我在现实中感觉到,这个不够全面,因该加入索引词的其他重要特征项的计算。而后进行必要数组计算,获得该词的正排索引队列。为倒排的建立创造了 必备的条件。

这里正排中的计算,细心的人可以发现搜索给出了一篇文章,一个网页的,针对关键词的数据收集的根本,难道其中的SEO优化可以利用的技术你还没有看到吗?哈哈~

 


下一篇:baidu分词算法分析之一 摘要:查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作
相关文章:
  • GOOGLE搜索引擎蜘蛛的等级
  • 搜索引擎三大定律
  • 百度搜索引擎核心算法
  • 网页信噪比
  • seo的链接分析计算
  • 网页搜索引擎的发展方向