谷歌搜索引擎蜘蛛是如何爬取页面的?

   日期:2019-05-13     浏览:11    评论:0    

互联网上有数以亿计的网页和文件,搜索引擎要爬取和索引这些内容则需要一个高效的方式。搜索引擎发明了自动爬行的机器人,也就是我们常说的蜘蛛来爬取这些内容。理解搜索引擎蜘蛛是如何爬取对于SEO人员来说能更方便的理解搜索引擎是如何工作的,或者帮助我们如何开展工作。


互联网公开的网页和文件数不胜数,搜索引擎是通过何种方式来发现他们的呢?用我们的一个成语来形象的说明就是:顺藤摸瓜!


我们把互联网想象成一个无边无际的藤曼组成的网。而这些网页,pdf,doc,图片,视频等内容是分布在各个藤上的瓜。搜索引擎要爬行到这些瓜,且尽可能找到所有的瓜,就需要一种特定的方式:找到其中一个藤,按照藤的路径持续前进,就可以找到依附在藤条上的瓜了。并且这些藤曼之间相互缠绕连接在一起,理论上可以爬取到所有的藤。


互联网亦是如此,链接将所有的网站链接在一起,通过链接,爬虫可以爬取到互联网所有的能接触到的内容。


当爬虫爬取到这些页面后,搜索引擎就开始下一步工作:储存并建立索引。

 
标签: 搜索引擎
打赏
 
更多>同类博客
0相关评论

推荐图文
推荐博客
点击排行