新闻资讯

关于SEO搜索引擎蜘蛛的几个知识点

来源:admin日期:2020/04/06

为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现、但是还没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。

2、蜘蛛抓取页面后,从html中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。

大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接而得到的。可以说提交页面作用微乎其微,搜索引擎更喜欢自己沿着链接发现新页面。

搜索引擎蜘蛛抓取的数据库存入原始页面数据库。其中页面数据与用户浏览得到的html是完全一样的。每个URL都有一个独特的文件编号。

检测并删除复制内容通常实在下面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被收录过的原因之一。

通过以上的介绍应该掌握做seo优化时吸引蜘蛛时,大致可以从几个方面来入手了。以上内容均来源于东莞网络公司,由东莞培恋网科技整合。东莞市培恋网科技为企业网页建设排名优化,提供企业、个人模板网站制作,国外域名注册和服务器提供商。

0
首页
电话
短信
联系