谢飞SEO顾问服务,SEO培训致电:15162180526

搜索引擎优化原理的相关知识【二】

时间:2018-10-15 14:39 来源:原创 作者:徐州SEO谢飞

搜索引擎的基本工作原理:
搜索引擎在不断地完善用户体验,争取在用户搜索对应的查询词时输出最匹配的搜索结果,让用户依赖上搜索引擎。每一个搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取,过滤,建立索引和输出结果
搜索引擎优化原理的相关知识【二】
抓取:百度蜘蛛会通过搜索引擎系统计算,来决定对哪些网站实施抓取 ,以及抓取的内容和频率。
(抓取频率参考因素比如:外部链接数量、内容是否够优质、是否存在对用户的友好设置、是否存在过度的搜索引擎优化行为等等。)

百度蜘蛛就是百度抓取网页的一个爬取程序。
主要功能:1).爬取网页,下载储存到网页库  2)提取链接,作为待抓取目标。
百度蜘蛛抓取策略:搜索引擎抓取A页面信息,并且收集页面上所有UrL,去掉UrL库中已经存在的链接,把新的链接添到到待抓取队列。
谷歌的抓取程序,一般称为谷歌机器人。360的抓取程序,一般称为360蜘蛛。

怎么让蜘蛛来抓取我们的网站?

通过上面对蜘蛛的解释,我们能够知道:要想自己的页面最终出现在搜索结果中,首先得让蜘蛛抓取到我们的网站。

通过下面三种方法可以让蜘蛛来抓取我们的网站
 
1.外部链接:我们可以在一些已经被搜索引擎收录的网站上面发布自己网站的链接,以此吸引蜘蛛,或者交换友情链接也是一个常用的方法。
 
2.提交链接:百度为站长们提供了链接提交的工具,通过这个工具,我们只需要通过这个工具提交给百度,那么百度就会派出蜘蛛来抓取我们网页了。百度网址提交工具网址:http://zhanzhang.baidu.com/linksubmit/url
搜索引擎优化原理的相关知识【二】
3.分享到QQ空间或QQ群,微信好友或微信群获得大量的点击!
 
怎么知道蜘蛛来过我们网站?
 
通过下面2个方式可以知道蜘蛛是否来过我们的网站。
 
(1)百度抓取频次工具,该工具网址为:http://zhanzhang.baidu.com/pressure/index
 
(2)服务器IIS日志:如果你的服务器开启了IIS日志功能,那么也可以通过IIS日志文件看到蜘蛛来过的痕迹。通过IIS日志我们可以发现百度蜘蛛抓取我们那些页面。

影响蜘蛛抓取的因素:
 
网站想要有排名,第一步就是必须能够被蜘蛛抓取到。那么那些因素有可能造成蜘蛛无法正常抓取我们网页呢,我们应该注意下面几个要点:
 
(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文字母(不分大小写))占一个字节的空间,一个中文汉字占两个字节的空间)。
 
(2)网址中不要包含中文:百度对于中文网址的抓取效果都是比较差的,所以在网址内千万不要带有中文。
 
(3)服务器问题:如果你的服务器质量太差,总是打不开,那么也会影响蜘蛛的抓取效果。
 
(4)Robots.txt屏蔽:有的SEO人员由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路径或者页面。这也会影响到百度对于我们网站的抓取效果。(Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。)例如:http://www.50xy.com/robots.txt
 
(5)避免出现蜘蛛难以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html这种URL蜘蛛无法理解会放弃抓取。
 
(6)注意动态参数不要太多太复杂,目前百度对动态URL已经有了很好的处理,但是参数过多且复杂的url有可能被蜘蛛认为重要而抛弃。这点尤为重要,一定注意。(静态网址易于抓取,建议使用静态的URL)
 
URL的定义,是指网页地址或者网页链接。
一般通过URL中是否带有“?”、“=”“&”“php”'asp'等字符来分辩,换句话说就是不带有任何参数的URL,就是静态URL。以“.html”或“.htm”形式结尾的网页。例如:http://www.50xy.com/seo/99.html  静态URL在搜索引擎上有一定的好处,可以更加方便搜索引擎蜘蛛来抓取网页。
 
动态URL又称动态页面,动态链接,即指在URL中出现“?” 这样的参数符号,并以aspx、asp、jsp、php、perl、cgi为后缀的url。例如:http://www.50xy.com/tags.php?/seo%C0%ED%C2%DB%D6%AA%CA%B6/

静态URL和动态URL的区别:
第一、动态URL较之静态的URL不利于搜索引擎抓取。
第二、静态URL打开速度更快,有利于提高用户体验性。

伪静态是相对真实静态来讲的,通常我们为了增强搜索引擎的友好面,都将文章内容生成静态页面,但是有的朋友为了实时的显示一些信息。或者还想运用动态脚本解决一些问题。不能用静态的方式来展示网站内容。但是这就损失了对搜索引擎的友好面。怎么样在两者之间找个中间方法呢,这就产生了伪静态技术。就是展示出来的是以html一类的静态页面形式,但其实是用ASP一类的动态脚本来处理的。
 
 
robots.txt 如何屏蔽网站动态url   http://blog.sina.com.cn/s/blog_12e5bdd690102wtox.html
 
过滤:网页消重,在可以识别内容的基础之上,搜索引擎还会将抓取到的网页内容,与已经存到数据库中的内容进行对比。如果搜索引擎发现你的页面内容质量与数据库中的内容大部分都是重复的,或者相比之下质量更差的话,那么这个页面也会被过滤掉。

保留原则:
1).保留原创  2).保留用户与曝光较大的页面  3).保留最先被收录的页面。

建立索引(收录)百度对抓取的内容进行标记和识别,并将这些内容储存为结构化的数据。
(比如网页的标题,描述,网页外链及描述,抓取时间。)将网页中的关键词信息进行储存和识别,以便与用户搜素的内容进行匹配。如果你的网站有幸通过收录模块,那么就有机会获得排名了。
 
1、如何查看某个网页是否被收录
 
最简单的办法,就是把该网页的网址复制到百度搜索框中进行搜索,如果能够出现该页面的搜索结果,那么就说明该网址已经被收录了。
 
2、如何查看一个网站的收录量?有2个方法:
 
(1)site命令
 
通过“site:域名”的命令,我们可以看到搜索引擎抓取了某个域名下的页面收录量:
 
(2)百度“索引量”查询工具(利用百度统计查看)
 
通过百度官方提供的“索引量”查询工具,也可以查询到我们网站的收录量。

3、收录量少怎么办?  一般都是因为该网站的内页内容质量太差导致的。这个时候站长应该赶紧调整整站的内容质量,提供优质的内容才有可能确保自己网站的收录量增加。
 

输出结果:寻找最匹配的网页,按照用户输入关键词所体现的需求强弱和网页的优劣进行打分,(信息的有效性、原创性、信息的认可度和网站自身权重)并查询及点击日志,对搜索用户的搜索做统计,最后根据该用户搜索习惯给出相应结果。

想要让自己的网站能够获得良好的排名,需要做到下面2点:
 
1、完善基础优化
 
想要获得良好的排名,那么你的网页首先要做好基础优化,这包括网站定位、网站结构、网站布局、网站内容等几个部分。这些基础优化的内容,我们将在后面详细阐述。只有把这些基础部分完善优化好了,才算是及格了。
 
2、综合数据良好
 
在基础优化做好的基础上,假如你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在及格线上加分。只要你的加分超过了所有的竞争对手,那么你的网站就可以排在所有对手的前面了。
 
搜索引擎的展示结果:1.推广链接
2.品牌推广:携程旅游网 
3.网页应用:圆通快递
4.框计算:顺丰客服电话 
5.自然排名:展示网页的标题、网页摘要以及UrL地址。

 
搜索引擎的投票原理:按照用户满意程度来排序网页,是最合理的网页排序,相似度和网页级别只是参与投票的前提。
链接投票:链接投票的质量因素:1)给你链接投票的网页类型   2)链接文本的描述  3)被链接网页是否符合该描述。
点击投票:时间、地区、停留时间、浏览情况

链接投票:如何一个网页的反向链接多,被引用的次数越多,很有可能这个网页比较受欢迎,是一个相对高质量的页面,不然也不会有很多人愿意为其做链接。但是不单一地认为一个页面的反向链接越多,这个页面的价值越高。
举个例子:新浪微博中,并不是某个人的粉丝越多,这个人的知名度就越高,就是个名人。因为粉丝有水粉,僵尸粉……
判断链接投票质量的因素有如下几点
1.给你链接投票的网站类型:并不是所有的投票都很有说服力,页面直接链接方式的投票也是这样。需要分析他页面和自己网站页面的相关性,他页面的权重高低,以及用户量(用户越多,这条链接被使用的次数可能越多,链接就越有价值)该平台是不是随意投票(公司老总表扬1号员工,那这个1号员工很优秀,如果老总同时表扬80%的员工,1号员工还是那么重要吗?)这个网页越符合上面几点,这个链接投票越有价值。
2.链接文本的描述:网页之间千差万别,A网页可能是做美容内容的,B网页可能是做网站建设内容的,C页面可能是做挖掘机内容的……页面之间的裸链接投票并不能给我们的关键词排名能带来很大的帮助,例如有一陌生人说你,小伙子(小姑娘)真不错,那到底是那方面不错呢?长得高还是长得帅,或者篮球打得好?并没有做具体说明。这里面间投票也是如此,锚文本链接具体描述性,对关键词排名更有作用。锚文本投票和用户搜索词相关,展示搜索结果时相关性的分越高。
3.被链接网页是否符合该描述:挂羊头卖狗肉,锚文本投票和页面内容不相关,该链接的价值越低,但是不等于零。
 
点击投票:用户对搜索结果是有选择性点击的,用户并不是只点前3名,有的搜索结果因为权重或者机器计算相似度等原因排在比较后的位置,但是这个结果可能是用户最想要的结果,用户是带着需求去搜索关键词的,例如搜索SEO的人,有的人是不懂什么是SEO,这时候,百科最适合他,有的人是站长,站长工具最适合他,有些人想学习……点击浏览是用户体验的体现。
 
用户体验可以通过点击提现,同时百度也是网站,如果不提升用户的搜索体验,就会被谷歌,360取代,所以百度会把用户搜索关键词最希望得到的搜索结果排到前面,提高用户的满意度。针对某一个关键词的搜索结果,被点击次数相对较多的页面被提升排名,由于用户一般关注的搜索只是前两页,第二页之后的排名不考虑该算法
 
针对百度搜索结果百度根据用户的选择点击来估计用户需求决定前二十名的网页排名,后来添加了地区以及时间因素不断完善算法。点击能反映用户的浏览痕迹,用户搜索某个关键词之后的浏览方向以及网站的点击情况,停留时间等数据大部分能搜索引擎得到(在百度统计中可以看到统计数据)用户搜索某关键词后搜索引擎重视以下数据:
1,用户有没有选择点击搜索结果
2,用户比较青睬哪个结果
3,用户对某一网页进行点击之后的浏览情况(有没有马上退出网站,选择另一个搜索结果或者换搜索词再次搜索,或者关闭搜索引擎……)

搜索引擎相关指令:Site   

一、什么是百度快照?
 
每个被百度收录的网页,在百度的服务器上都存有一个纯文本的备份,称为“百度快照”。 百度快照作为网站遇到故障或某些原因,不能显示的时候,可以通过点击百度快照进行浏览。简单来说,百度快照只是网页的一个纯文本备份。
 
二、什么情况下百度快照才会更新?
 
百度快照更新的原因是这样的:网页新增了重要的、有价值的内容,百度的搜索引擎蜘蛛baiduspider爬行以后,会将该网页的地址建立索引,而百度快照的时间就是索引建立的时间。
 
三、如何加快百度快照更新频率?
 
每个被百度收录的网站,baiduspider都会根据该网站内容的更新频率,过来采集,如果从上一段采集到这次采集之间,刚好产生了有价值的内容,那么就会在百度服务器中建立索引,索引建立的时间就是百度快照更新的时间。
 
四、加快百度快照更新频率因素有哪些?
 
加快快照更新频率有两个重要因素:
一是网站定期更新,持续有规律的更新,可以方便百度蜘蛛baiduspider更有效率的抓取网站信息;
二是网站更新的内容,必须要有价值。对于网页价值,可以认为是网页更新的内容有时效性,有重要的更新内容等。
 
五、百度快照和网站权重什么关系?
 
 
作为很多网络新人第一个接触到的网站类型,在网站优化过程中,交换友情链接就是网络新人为数不多的优化手段。但是在友链交换过程中发现,评价一个网站好坏,百度快照被认为是一个非常重要的指标,快照越新,表明权重越高,其实这是一种误解,网页快照和网站的权重没有直接的关系。
 
六、百度快照出现倒退是什么原因?
 
分析:一般而言,一个重要的网页,在百度服务器中会同时保存有数个网页快照,这些快照的抓取时间都不相同。在某些特殊的条件下,比如百度算法更新,就会出现网页快照后退的情况。当然这和网站受到惩罚没有必然联系,判断网站是否受到惩罚,还需要更多详细的数据,才可以判断。

七、如何删除百度快照?
 
需要删除百度快照,就需要进行快照的投诉,而投诉该快照的地址就在打开快照结果页的顶部,可以看到“投诉快照”四个字,点击之后就会让你填写一些快照投诉的信息。
搜索引擎优化原理的相关知识【二】
 

围观: 9999次 | 责任编辑:徐州SEO

回到顶部
describe