【相关性分析】以“武汉SEO”为例分析查询词与网页的相关性

    文章来源:SEO整站优化 日期:2018/05/10
  关键词在搜索引擎中的排名有很多影响因素,当我们查询一个关键词时,搜索引擎怎样从海量的文档中查找最相关的网页,并快速给出排名,是体现搜索质量的一个重要指标,百度在这方面无疑是做的比较好的。笔者查阅了很多资料,结合多年的SEO整站优化经验,下面以“武汉SEO”为查询词,讲解文档相关性判断的规律。
查询词与网页的相关性分析   

 首先,简单检索模型:布尔模型。

  一般文档中会包含很多关键词,有一些会重复。布尔模型是搜索引擎中比较初级的检索模型,查询词之间用逻辑连接词组合,就像数量里面的且、与、非等。通过文档包含查询词的多少来计算相关性。当然了,在实际搜索中,用户使用这种组合的查询词比较少见,在这里只是介绍一下原理,希望对做SEO的朋友有所启发。   举例说明,假设有以下三个网页内容如下:
  1、武汉SEO为武汉地区的网站提供SEO服务
  2、光谷SEO服务是主要为武汉地区的网站提供优化服务
  3、关键词排名服务是武汉SEO优化最擅长的服务
  现在,假如有一个用户搜索:“关键词、SEO服务”,哪一个网页与查询词最具相关性呢?很明显,第三个网页同时包含了关键词和SEO服务这两个词,那么搜索结果排序应该是第三个网页排在第一。这一点,武汉SEO实际优化过程中也发现了这个规律,完全匹配的网页排序要高于非完全匹配的网页。
  

 第二、TF-IDF相似度计算方法

  武汉SEO上面讲的布尔模型有很多缺陷,TF-IDF则是搜索引擎较为常用的相似度计算方法。简单来说就是查询词在网页中出现的次越多,且包含该查询词的文档总数量越小,那么这个查询词的权值越高,越能代表此网页的主题。
  那么TF-IDF对SEO来说,怎么应用呢?可以思考一个问题,假设有一个网页的内容中既有“武汉”,又有“SEO”,武汉出现的次数是20次,SEO出现的次数是10次,那么根据TF-IDF计算方法,这篇文章的主题的是什么呢?计算的步骤如下:
  第一步打开百度分别搜索“武汉”和“SEO”,统计的相关结果数量,武汉的相关结果是77900000个,SEO的相关结果是19200000个。如下图所示:
武汉的相关结果数量 SEO的相关结果数量   第二步:根据前面讲到TF-IDF原则,可以容易判断出“武汉”的TF-IDF值要比“SEO”的TF-IDF值小,所以这就说明些网页的主要内容与SEO更加相似。
  

 第三、外链对网页相关性的影响

  前面讲到了搜索引擎自身会使用到的网页相关性算法。外链则是影响网页主题的外部因素,比方说这篇文章网页相关性的内容,但是hao123,搜狗,新浪等网站有一条锚文本链接:“武汉SEO”指向本页面,那么当用户搜索:“武汉SEO”时,搜索引擎就会将此页面作为搜索引擎展示出来。外链的原理就是这么简单,别的网站说你是什么,你就是什么,只要量足够大。
  每个搜索引擎的相关性判断标准可能不太一样,而且会同时运用很多算法来分析查询词与网页的相关性,在实际运用的过程中,还需要多留心与总结。
  (本文:“【相关性分析】以“武汉SEO”为例分析查询词与网页的相关性”由“SEO服务”整理编辑。)
光谷SEO服务官网:http://www.guangguseo.com/,一个热爱SEO的网站!