2.3.1 文档分析和语义联系
在文档分析(document analysis)中,搜索引擎关注于文档重要区域中是否找到搜索词,这些区域包括标题、元数据、标题标记和正文。它们还试图根据文档分析以及其他许多种因素自动度量文件质量。
对于当今的搜索引擎而言,仅仅依靠文档分析是不够的,所以它们还关注语义的联系性。语义联系(semantic connectivity)指的是常常相互关联的单词或者短语。例如,如果你看到Aloha译注1一词,就会联想到夏威夷,而不是佛罗里达。搜索引擎主动地构建自己的同义词库和词典,帮助它们确定某些词和主题之间的关联。通过扫描自己的大量Web内容数据库,搜索引擎能够使用模糊集合理论和某些公式(在http://forums.searchenginewatch.com/showthread.php?threadid=48中描述)将词语联系起来,开始像人类一样理解网页/网站。
专业的SEO人员不需要使用语义联系度量工具来优化网站,但是高级的从业者会追求每一个可供利用的因素,语义联系度量对以下这几个方面可能有所帮助。
度量目标的关键短语。
度量有关某个主题的页面上应该包含的关键短语。
度量其他高排位网站/网页上文本之间的关系。
寻找提供"相关"主题链接的页面。
这些材料来源的技术性很强,但是SEO专家只需要了解获取重要信息的原则。重要的是,虽然IR领域包含数千个技术性用语,这些术语往往难以理解,但是即使是SEO新手也能够分析和理解。
下面是IR领域的常见搜索类型。
相近搜索
相近搜索用搜索短语的顺序寻找相关的文档。例如,当搜索"sweet German mustard"(德国甜芥末)时,你指定的只有一个准确的相近搜索。如果去掉引号,搜索词的相近性对搜索引擎仍然很重要,但是搜索引擎返回的内容就不会精确匹配搜索短语,例如,Sweet Mustard-German.
模糊逻辑
从技术上讲,模糊逻辑指的是无法仅用真/假来区分的逻辑,常见的例子之一是某天是不是晴天(例如,有50%的云,是否仍然可以称为晴天)。模糊逻辑是搜索引擎用于检测和处理拼写错误的手段之一。
布尔搜索
布尔搜索使用布尔运算符,如AND、OR和NOT.这类逻辑用于扩展或者限制搜索中返回的文档。
搜索词加权
搜索词加权指的是特定搜索词对查询的重要程度。原理是为特定的词语赋以比其他词更高的权重,以得到更好的搜索结果。例如,在查询中的单词the得到的权重很小,因为它几乎在所有英语文档中都会出现,没有什么独特性,对文档的选择没有任何帮助。
IR模型(搜索引擎)使用模糊集合理论(Lotfi Zadeh博士于1969年创立的模糊逻辑分支)发现两个单词之间的语义联系。和用同义词库或者词典推断两个词是否相关不同,IR系统可以使用巨大的内容数据库推测出词语之间的关系。
这一过程听上去似乎很复杂,但是原理却很简单。搜索引擎需要依赖机器逻辑(真/假,是/否等)。机器逻辑对于人有一些优势,但是不像人那样擅长解决某些类型的问题。对人来说很直观的事情,对于计算机来说却很难理解。例如,桔子和香蕉都是水果,但是两者不都是圆的,这一点对人来说很直观。
对于机器来说,要理解这一点以及其他类似的概念,语义联系是关键。Web上的大量人类知识可以在系统的索引中获得,并从中分析人类已经建立的联系。因此,机器能够通过扫描索引中出现的"香蕉"和"桔子",注意,"圆形"和"香蕉"不经常同时出现,而"桔子"和"圆形"常常一起出现,从而确定桔子是圆的,而香蕉不是圆的。
这就是模糊逻辑的用武之地。使用逻辑集合理论帮助计算机通过度量两个词同时出现的频率和语境,就能理解两个词的相关性。
在此基础上扩展起来的相关概念之一是潜在语义分析(Latent Semantic Analysis,LSA)。思路是通过对几十亿个各种网页(索引)的研究,搜索引擎能够"学习"到哪些词是相关的,哪些概念相互之间有联系。
例如,利用LSA,搜索引擎能够发现前往"zoo"(动物园)的"trips"(旅行)往往包含"viewing wildlife"(观看野生动物)和"animals"(动物),这可能是"tour"(旅行)的一部分。
在Google上尝试搜索"~zoo ~trips"(波浪号是一个搜索运算符,本章后面将有更多的相关内容)。注意,返回结果中粗体的单词与上一段中提到的那些单词相符。Google识别出索引中经常共同出现(一起出现、在同一个网页中出现或者位置接近)的词语,并将"相关"的词语显示为粗体。
有些形式的LSA计算成本太高,无法在实践中使用。例如,目前的搜索引擎无法像较新的MIT学习型计算机那样聪明地"学习".例如,它们无法通过索引学习到"斑马"和"老虎"都是带有斑纹的动物,尽管它们可能发现"斑纹"和"斑马"比"斑纹"和"鸭子"在语义上有更多联系。
潜在语义索引(Latent Semantic Indexing ,LSI)更进一步,使用语义分析来识别相关的网页。例如,搜索引擎可能注意到某个网页谈及doctor(医生或者博士),另一个网页谈及physicians(医生),并且根据这些页面中常见的其他单词确定这些页面之间的关系。结果是,引用doctor的页面在搜索physician时也可能出现。
搜索引擎在此类技术上的投资已经持续了很多年。例如,2003年4月,Google收购了以语义文本处理技术闻名的Applied Semantics公司。这种技术现在用于Google的AdSense广告软件,而且很可能用于Google的核心搜索算法。
从SEO方面看,这些应用让我们认识到搜索引擎是如何发现网络上的单词、短语和概念之间的联系的。随着语义联系越来越成为搜索引擎算法的重要组成部分,可以预见,页面、网站和链接的主题将会越来越受到重视。我们应该认识到,未来搜索引擎理解概念主题以及发现不适合网站结构的内容、链接和页面的能力将更为重要。