XML地图 黑帽SEO培训为广大SEO爱好者提供免费SEO教程,致力于SEO优化、SEO服务
首页 > SEO优化 » 搜索引擎发展趋势

搜索引擎发展趋势

2018-10-14T10:52:16 | 人围观 | 关键词:搜索引擎发展趋势--SEO培训


  搜索引擎发展趋势
 

  前述章节讲解了搜索引擎相关的核心技术,搜索引擎的快速发展也仅是最近15年发生的,这与互联网的发展趋势密切相关。最近几年,互联网在经过了Web 2.0的市场培育阶段后,迎来了以互联网用户的个性化和社交化为中心的趋势。同时,移动设备的逐渐流行及与上述两大趋势的融合,促生了很多新型应用,为了迎接和顺应这种趋势,对于搜索引擎来说,也产生了新的挑战。
 

  本章简略叙述搜索引擎为了应对当前互联网发展潮流,所体现出的一些新兴领域或者发展重点。这些技术领域很多并不成熟,正在快速发展之中,所以本章并不详述其技术细节,对于每个趋势,大致讲解其特点及基本技术思路。对于行业发展趋势,不同人观点迥异,本章所述这些观点属作者一家之言,仅供读者参考。
 

  12.1 个性化搜索
 

  互联网的发展已经进入了新的阶段,即以用户为中心的阶段。如何通过用户的网上行为建立用户的个人模型,并基于此,提供精准的个性化服务成为各种研究的重点。搜索引擎也不例外,个性化搜索即是为了解决这个问题而提出的技术领域。
 

  对于搜索引擎用户来说,由于其个人兴趣不同,即使是同一个查询词,也可能其搜索意图迥异。比如用户发出查询“Ajax”,如果这个用户是计算机工程人员,那么很有可能希望查找的是技术资料;而如果用户是个球迷,那么很可能希望查找的是阿贾克斯球队的信息。所以即使是相同的查询词,如何为不同的用户提供个性化的搜索结果,成为衡量搜索引擎搜索质量非常重要的标准。
 

  从技术角度看,个性化搜索任务主要面临两个问题:如何建立用户的个人兴趣模型?在搜索引擎里如何使用这种个人兴趣模型?
 

  个性化搜索的核心是根据用户的网络行为,建立一套准确的个人兴趣模型。图12-1是一种比较理想化的用户建模方式,即全面收集与用户相关的信息源,包括用户搜索历史及点击记录,用户浏览过的网页、用户E-mail信息、用户所收藏的信息及用户发布的信息比如博客、微博等内容。在此基础上建立用户兴趣模型,用户兴趣模型的表达方式也有很多种选择,比较常见的是从信息源抽取出的关键词及其权重,也可以将关键词映射到语义层面的本体结构,或者是浏览文档形成的层级分类结构。不论采取哪种方式,都通过以上手段建立了能够代表用户长期和短期兴趣的用户模型。

 

  

 

  在建好用户模型后,对于搜索引擎来说,如何使用这个用户模型也是需要考虑的问题,从目前的研究来看,一般有两种不同的使用方式:一种比较常见的方式是对初次搜索结果重排序,即利用用户当前的查询词获取排在前列的搜索结果,之后根据用户模型对这些前列搜索结果重新排序,排序原则是与用户个人兴趣越匹配的内容排名越靠前;另外一种方式是对用户当前的查询词进行直接扩展,即从用户兴趣模型里找出与当前查询词密切相关的词汇,之后将用户查询改写为扩展的查询,使用搜索引擎查找结果,这样对于不同的用户,即使是输入相同的查询词,也会获得不同的搜索结果。
 

  为不同用户提供个性化的搜索结果,这必然是搜索引擎总的发展趋势,但是现有技术方法也存在一些问题。首先是用户的隐私问题,为了获取精准的用户兴趣模型,就需要多方面收集用户信息,而这很可能暴露用户隐私。另外一点,用户的兴趣是不断变化的,而如果太依赖历史信息,可能无法反映用户兴趣的转移和变化。
 

  12.2 社会化搜索
 

  随着Facebook的逐日流行,社交网络平台和相关应用占据了互联网的主流(参见图12-2)。社交网络平台强调用户之间的联系和交互,这对传统的搜索技术提出了新的挑战。

 

  

 

  传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个查询,相关的搜索结果可能成千上万,但是如果是处于用户社交网络内其他用户发布的信息、点评的评论或者验证过的信息则更可依赖,这是与用户的心理密切相关的。社会化搜索即结合了这种相关性和可依赖性,为用户提供更准确、更值得信任的搜索结果。
 

  社会化搜索的本质是信息过滤与推荐,即对用户的疑问,社会化搜索系统推荐合适的人来回答用户疑问,或者通过社交关系过滤掉不可信赖内容,推荐可信赖内容,图12-3是社会化搜索整体流程示意图。根据其他用户和提问者的关系,社会化搜索系统重点关注4类关系:直接有社交联系的成员,比如熟人或者朋友;有相同兴趣的成员;用户所加入网络社区的成员;领域专家。直接具有社交联系的成员对搜索者具有直接影响力,比如购物搜索时对产品品牌的评价;有相同兴趣的成员则形成了有效的信息过滤者或者推荐者;搜索者所在社区的成员从本质上讲也是有相同兴趣的成员,对于搜索者的问题能够形成有效的信息过滤和推荐;而领域专家则对问题的解答具有权威性。通过结合或者分别使用以上4类社区成员的信息,社会化搜索系统可以给搜索者提供合适的回答者或者值得信赖的信息。

 

  

 

  社会化搜索从其性质上讲,和个性化搜索是密不可分的,因为用户的社会关系其实也是个性化信息的一个组成部分。社会化搜索将搜索维度从信息维扩展到关系维,丰富了信息源,对于获得更准确的搜索结果帮助很大,具有广阔的发展空间。这个领域方兴未艾,无论是商业公司还是研究机构,对于这个领域还处于探索阶段。
 

  12.3 实时搜索
 

  随着Twitter、微博等提供微信息发布的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性。其中一个突出的特点是时效性强,越来越多突发事件的首次发布出现在微博平台上,比如某地地震或者社会事件,这是有其必然性的。
 

  实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户发布的信息能够第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点(参考图12-4)。

 

  

 

  对于Twitter或者新浪微博这种信息平台来说,信息的快速获取本身不存在问题。而对于搜索引擎服务公司来说,如何能够快速全面地获取微博数据就成了严重的挑战,目前的解决方案大致有两种。一种是与微博平台合作,由信息平台将最新的信息实时推送给搜索引擎。另外一种是由爬虫实时抓取,这里面有若干技术挑战:首先,微博平台作为个人信息发布平台,往往需要用户登录使用,这对于爬虫来说就形成了第1道屏障;另外,即使爬虫能够登录微博系统,如何全面获取信息,难度也很大,微博用户以亿计,而且微博内容短小,同时不像网页可以通过链接传递逐步发现更多内容,如何保证信息全面性成为第2道屏障,尽管可以通过用户关注关系获得部分微博数据,其全面性是难以保障的;如果爬虫无法保证信息的全面性,那么实时性也是无法满足的,因为很可能最新发布的消息爬虫根本抓取不到。从这几个方面讲,微博平台对于搜索引擎来说是有其天然封闭性的。Google目前通过与Twitter合作的方式获取微博数据。
 

  在索引构建方面,实时搜索要求第一时间对新发布的内容进行索引,即用户发布则信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中,也能够提供搜索服务。
 

  在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按照时间顺序排序,即最新发布的信息排在前列。
 

  对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子。
 

  · 内容相关性:信息是否与用户查询主题相关。
 

  · 时效性:发布时间越近的信息,其搜索排名应该越靠前。
 

  · 信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比如信息发布来源是否可靠(微博中信息发布者的重要性)、被转发次数多少、被评论次数多少等都可以作为判断指标。
 

  · 社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人发布的信息排名应该靠前。
 

  综上所述,实时搜索在信息获取、信息索引和排序机制方面都有其特性,以此和传统搜索引擎做出区分,而随着突发事件越来越多在这种平台发布,其重要性不言而喻。
 

相关内容推荐:

Top