搜索引擎收录

搜索引擎收录

目录导航

基本概述

搜索引擎收录搜索引擎收录 搜索引擎收录,就是是采取大小通吃的策略把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,并对网页进行排名的过程。当用户检索信息时,被收录的信息就会以一定的顺序显示。一般情况下,只要一个网站正常做着更新,各大搜索引擎就会按时来收取的, 收录不收录取决于网页内容的质量,一般的原创,会被收录,如果是伪原创,会被收录,但是权重会不高,这样的文章多了甚至会降权,所以这样的文章能不发就不发。比较常用的搜索引擎收录有baidu(百度)、google(谷歌)、yahoo(雅虎)、sogou(搜狗)、youdao(有道)、soso(搜搜)、bing(必应)。

收录原理

第一阶段

 搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。    

第二阶段

 而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。

 爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

第三阶段

搜索引擎收录搜索引擎收录 OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。 

第四阶段

  大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。 

索引与收录

接下来才进入真正的索引与收录网页过程。从上面的介绍可以看出,FreshBot提交的url列表是相当庞大的,根据语言、网站位置等不同,对特定网站的索引工作将分配至不同的数据中心完成

整个索引过程,由于庞大的数据量,可能需要几周甚至更长时间才能完成

正如上文所言,DeepBot会首先索引优先级较高的网站/网页,优先级越高,出现在Google索引数据库及至最终出现在Google搜索结果页面中的速度便越快。

对新建网页而言,只要进入到这个阶段,即使整个索引过程没有完成,相应的网页便已具备出现在Google索引库中的可能,相信许多朋友在Google中使用“site”搜索时常常看到标注为补充结果只显示网页url或只显示网页标题与url但没有描述的页面,此即是处于这一阶段网页的正常结果

当Google真正读取、分析、缓存了这个页面后,其便会从补充结果中逃出而显示正常的信息。

——当然,前提是该网页具有足够的链接,特别是来自权威网站的链接,并且,索引库中没有与该网页内容相同或近似的记录(DuplicateContent过滤)

对动态url而言,虽然如今Google宣称在对其处理方面已不存在障碍,不过,可以观察到的事实仍然显示动态url出现在补充结果中的几率远大于使用静态url的网页,往往需要更多、更有价值的链接才能从补充结果中逸出

而对于上文中之“F”类,即未更新的网页,DeepBot会将其时间戳与Google索引数据库中的日期比对,确认尽管可能搜索结果中相应页面信息未来得及更新但只要索引了最新版本即可

——考虑网页多次更新、修改的情况——;至于“G”类即404url,则会查找索引库中是否存在相应的记录,如果有,将其删除。

数据中心同步

  前文我们提到过,DeepBot索引某个网页时会由特定的数据中心完成,而不会出现多个数据中心同时读取该网页,分别获得网页最近版本的情况,这样,在索引过程完成后,便需要一个数据同步过程,将网页的最新版本在多个数据中心得到更新

这就是之前著名的GoogleDance。不过,在BigDaddy更新后,数据中心间的同步不再象那样集中在特定的时间段,而是以一种连续的、时效性更强的方式进行。

提高被收录率

搜索引擎收录搜索引擎收录网站内容被搜索引擎收录的数量直接关系到网站的点击量,从而更是影响到网站的排名。因为这个原因,站长们都花大力气去做到站内内容的精致和独特以求能被收录。站长们对提高各自站内内容被收录都各有一定绝招,不过,所谓集思广益,掌握的方法越多肯定是对自己越有好处的,下面我就总结下提高网站被收录率的各种方法。

去除无效链接

不论站长们做的是哪种类型的网站,其站内结构一定要简洁明了,这是做站的站长们必备知识之一。一般的网站在设计时页面层次不要超过三层,页面文件名可以用字母或者数字,但千万不要用很长的中文转英文插件,那样做对收录没任何好处。并且做站过程中添加内容时建议大家都采用生成静态或者伪静态技术处理,这样有利网站在搜索引擎中的友好度。 

维护站内稳定

网站使用的空间好坏直接关系到搜索引擎的拜访速度和效率从而影响到网站内容收录,这是大家应该都知道的问题之一。当你每天例行检查自己的网站快照,发现很长时间没更新或是更新进度太过缓慢时,你就有必要去查看同IP地址下别的网站的收录情况,如果收录都不好的话,你就应该果断的去换个空间了,网站的空间就好比网站最根本的基础,如果它也不好的话收录是一定不会上去的。

提高原创度

网站内容是决定你的网站是否被收录的关键也是最重要原因,因为任何一个站点最主要的还是靠内容去吸引搜索引擎的拜访,如果搜索引擎长期观察到你北京婚纱摄影工作室网站内容都是抄袭或者伪原创时,那它就基本不会来你的网站了,倘若有一段时间你没有精力维护更新,那更是被它拉黑。所以,站长们在对待本站内容更新时一定要慎重,宁可少但不能滥!  

控制外链来源

当经过我们的苦心经营之后,我们的网站基本成型了,这个时候外链就成为关键之一了。很多站长们在做外链时利用工具,有时几天不发布,有时一天发布几天的量,这些都是要不得的。外链接是需要持续,稳定的发布才有效果的。贵在坚持,我们站长任何时候都不要忘记这点。  

制作网站地图

可能很多站长们都忽略这一点,但是不可否认一个网站的站内地图也是保证我们网站内容被收录的有效方法之一。网站地图能提高搜索引擎抓取工作效率,增加收录效率,能使访客和搜索引擎得到最大化的便利。我们在做站的时候最好保证每个页面都能有地图链接,从而更加全面的帮助自己把网站内容向搜索引擎推广。

用好meta标签

搜索引擎收录搜索引擎收录不管是老站长还是新站长一般都很容易忽视HTML标签META的强大功效,那就是一个好的META标签设计可以大大提高你站长被搜索到的可能性。利用好Keywords和Description的设定。编辑好语句可以让搜索引擎能准确的发现你,从而吸引更多的人访问你的站点!

丰富自身资源

毫无疑问,对于推广来说“人脉”是毫无疑问的重点,而网站收录就相当于向搜索引擎推广。有些人为什么做网站推广很轻松?因为他们手上有资源,有人脉!你没有怎么办?简单,慢慢积累!路不是一步就到目的地,饭也不可能一口吃成个胖子,只有长期丰富自身资源,积累久了之后,你也和那些“高人”同一个段位了。

常用收录入口

百度收录

Google收录

Yahoo收录

Bing收录

Sogou收录

Alexa收录

中国搜索收录

有道搜索收录

搜搜收录

天网网站收收录

Dmoz收录

Coodir收录

增加外链方法

1,自己主动性地增加链接

2,交换友情链接,比较容易简单的办法

3,提交分类目录、网络书签,简单未必十分有效

4,购买文本链接,需要有一定成本投入,且链接不持久

5,组建链接网络,建立网站群、博客群,投入成本高,耗时较长,后期效果明显

6,群发链接,留言板垃圾留言、论坛签名链接……

百度收录特点

1.基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率

2.支持主流的中文编码标准。包括gbk(汉字内码扩展规范)、gb2312(简体)、big5(繁体),并且能够在不同的编码之间转换。”

搜索引擎收录搜索引擎收录3.智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性

4.检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文

5.百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容

6.相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%.

7.运用多线程技术、高效的搜索算法、稳定的unix平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)

8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎

9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率

10.智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础

11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性

12.高可配置性使得搜索服务能够满足不同用户的需求

13.先进的网页动态摘要显示技术。

14.独有百度快照

15.支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(and)、“-”(not)、“|”(or)、“site:”、“link:”,还将继续增加其它高效的搜索语法。

不收录的情况

百度不收录新站的解决方法:

(1)最好等网站的所有内容都完工后再上传到网站空间

(2)网站上传后,到百度提交下网站:几大搜索引擎的网站登录入口

(3)到百度搜藏注册3-5个账号,然后收藏网址

(4)到乐收,好望角等网络收藏夹收藏网址

(5)到百度贴吧,A5等权重高的网站发布链接诱饵(带上自己的网址),引诱百度蜘蛛过来爬去

(6)第一个月每天有规律的更新2-5篇原创文章

(7)不要采取SEO作弊方式优化

基本上按照上面的操作步骤,1-30天内都能收录首页。如果过了1个月,网址还没有收录,您可以尝试把首页的布局做个改版。[1]

网站不收录的因素

       第一、层级

  我们说到网站的层级会影响蜘蛛的爬去轻易水平,其实并不是这样的。大型网站到了第四层或者第五层、六层都有收录,那是为什么我们企业站在第四层的内容就难以被收了?所有的网站都是一样的,不管是新浪还是我们的企业站,通常为了吸引用户的点击,都会把主要的内容放在放在和栏目页。所以百度蜘蛛就默认放在网站的链接进去的内容是网站最主要的内容,比如我们内页的一篇文章推举在,可能通过路径来看已经是第四层了,但是因为在有做链接,所以还是属于第二层。对于主要的内容蜘蛛就会去抓取和收录,企业站的内容非常少并且受众哦也非常少,百度给予企业站收录的层次是3层,3层以下的内容就被主动以为是没有价值的内容。

  第二、网站的信誉度

  网站的信誉度重要由两个方面决议,一个是网站的时光长短,另外一个是给予网站的投票。一个网站做的时光越长在其他条件雷同的情形下更新文章收录的可能性就会越高。网站的的时光不是指域名注册的时光,是指网站做好以后并且连续治理的时光的长短,假如网站做好之后没有去治理那么也是没有后果的。投票就是网站的外链,相似于现实生涯中的找工作一样,假如在求得一份工作的时候有这个公司的高管的推举,那么得到这份功效做的可能性就会更大。雷同的假如你的网站有高权重的链接指向,那么前期收录可能性就会大。

  第三、更新频率

  更新的频率越高收录就会更加的轻易,但是须要留意看行业来定。对于一个小型的机械类的企业站就不须要天天更新那么多文章,更新再多也很难有好的收录,但是像娱乐行业就须要每时每刻更新。

  第四、注册老域名做站

  很多人爱好捡廉价或者以为老域名做站能继续之前的权重,其实是错的。老域名再拿来做站信誉期会比新注册的域名时光要长2-3个月,也就是说人家的新站1个月收录内页,而你的可能要2个月三个月收录内页,并且收录的时光也会拉长。假如是之前被降权或者被K或的域名再次做站收录就更加艰苦,可能一个月都不能收录。如何看是否之前有用过?在百度搜索框搜索域名,假如有任何的相干域就阐明之前这个域名被应用过。

  第五、网站模板

  有的seo在看到竞争对手的一个网站做的非常好就直接把模板拷贝过来,或者直接把人家的站仿造下来修正下自己的内容就成了自己的新站了。对于在同一个产品下的同模板的站点百倍会给与更长的信誉周期。因为很简略,同产品大多数的参数和内容是一样的,很轻易被辨认为作弊站点。但是假如不是同产品的,比如我看到人家一个led的模板非常好,我拿来做切割机,这就没有问题了。虽然都是机械,但是做的产品不是同一个产品。[2]

相关百科
返回顶部
产品求购 求购