网络蜘蛛,集合的建立
藏书人摘要:我的理论对于搜索引擎的网络蜘蛛工作来说集合概念有二: 第一:蜘蛛的访问带有该站的url集合(A集合)。 第二:搜索数据库所建立的该url的集合(B集合)。 工作原理: 两种方式激活蜘蛛。 (1)你主动提交你的网站 (2)在WEB链路上访问到你的网站。...
我的理论对于搜索引擎的网络蜘蛛工作来说集合概念有二:
第一:蜘蛛的访问带有该站的url集合(A集合)。
第二:搜索数据库所建立的该url的集合(B集合)。
工作原理:
两种方式激活蜘蛛。
(1)你主动提交你的网站
(2)在WEB链路上访问到你的网站。
蜘蛛第一次携带你的初始url集合被搜索的服务器派出,对你的站点进行访问。由于你的设置默认首页,所以首页就是蜘蛛的入口(这个可以在日志中验证)。
第一次的蜘蛛由于集合为空,所以就不必和服务器交互信息,直接抓去URL进入集合就可以,而后通过集合中的URL下载页面到服务器进入数据库。
而后的蜘蛛就不同了,由于集合中已经有部分的内容,再次或者以后的访问,就会偏重于和服务器的交互来抓去url到集合中。对于搜索服务器中已有的url, 蜘蛛就会放弃,对于已有但是更新了内容的url,蜘蛛就会抓去。这些只有通过和服务器的交互才会完成,否则无序的大量抓去,搜索的服务器承载能力就 会............哈哈!
服务器的集合工作原理:
服务器的集合首先就是形成了该站的页面集合,这是必须的,否则就无法进行页面之间的传递和接力,已经
相关性的计算。而这个集合的链接结构是一般是一定的, 我有时根据需要会有意的改变一下搜索数据库中站的链接结构,以解决一些收录和排名的问题,这些都是深层次的问题,比较复杂,在高级讲座中,我会讲解的。
好了,简单的集合概念,我就说到这里。感谢
大家阅读!!!
SEO爱好者:大地
下一篇:优化的本质 摘要:很多的朋友试图在优化自己的网站,由于对搜索引擎的不熟悉,和互联网上有关文章的诱导,致使疲惫与技巧的发挥,到头来要不无法获得想要的排名和流量要不很难相对持久的获得排名和流量这里的主要的原因,就是缺乏对搜索的本质了解。首先了解一下,搜索
相关文章:
大地优化的本质
蚁群算法下的seo策略
神经网络研究
Lucene基本相关度算法与网上流传的
排序的的计算规则
baidu分词算法分析之二