当我们建立好一个网站后,想要在百度搜索引擎获得排名以及流量,那么,就一定要让搜索引擎蜘蛛爬行及抓取你的网站页面。百度蜘蛛爬取到内容后,会对页面内容进行预处理,跟进情况决定是否进行搜索结果展现。搜索引擎蜘蛛爬取网站大致有以下内容。
索引擎工作原理
爬行与爬取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取网页代码,存入数据库。
预处理:索引程序对抓来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排序程序调用。
排名:用户输入查询词后,排名程序调用索引数据库,计算相关性,然后按一定的格式生产搜索结果页面。
蜘蛛爬取状态码什么意思?
这个状态码主要是在我们分析蜘蛛爬取日志的时候会用到,蜘蛛日志会记录百度搜索每天来爬取了多少次,都爬取了那些页面和目录,都是哪些IP段的蜘蛛,以及爬取是否成功,或者爬取失败,爬取失败就意味着页面不会被收录,也就不会参与排名,怎么判断爬取失败那,这个时候就需要用到蜘蛛状态码了!
200表示爬取成功,百度蜘蛛成功爬取了页面,准备进行下一步处理!
403代表爬取失败,网页目前禁止访问,一般为设置了某一些权限所产生。
404代表爬取失败,原网页页面已经失效,代表爬取失败
503代表爬取失败,网页临时不能访问,通常网站临时关闭,带宽超额不能访问等情况。
影响百度搜索搜索引擎页面排序因素的几个点!
1,相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
2,权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索搜索引擎也更相信优质权威站点提供的内容。
3,时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
4,重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
5,丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一化需求,还可以满足用户的延展需求。
6,受欢迎程度:指该网页是不是受欢迎,用户的访问行为,停留时长,页面点击率等等。
7,综合排序:将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体性评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等。