搜索引擎地址库介绍

上篇文章小编为大家介绍了怎么让搜索引擎爱上你的网站,今天小编就为大家介绍搜索引擎地址库,希望对大家有帮助,希望的小伙伴就往下看吧~

搜索引擎蜘蛛抓取的数据存入原始页面数据库,其中的页面数据与用尸浏览器得到的HTML是完全一样的。每个URL都有个独特的文件编号。为了避免重爬行和抓取网址,搜索引擎会建立一个地址库,记录下已经被发现还没有抓取的页面,以及已经被抓取的页面。

 地址库中的URL大概有4个来源:

(1)人工录入的种子网站。

  (2)蜘蛛抓取页面后,从HTML中解析出心的链接URL,与地址库中的数据新型对比,如果地址库中没有的网址,就存入待访问地址库。

  (3)站长通过搜索引擎页面提交表格提交进来的网址。

  (4)站长通过XML网站地图站长平台提交的网址。

蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。

大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。

以上就是厦门seo优化的小编为大家带来搜索引擎地址库介绍,欢迎大家来到咖啡seo博客,希望这篇文章的小伙伴就点个赞吧~

您可以选择一种方式赞助本站

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: