2.2.4 搜索引擎在网页上能"看到"什么内容(1)
搜索引擎爬行器和索引程序本质上是软件程序。这些程序非常强大,它们能够爬行数以万亿计的网页,分析所有页面的内容和这些网页相互之间的链接关系。然后,它们将这些数据组织为一系列数据库,能够在零点几秒之内响应用户搜索查询,提交一组非常合适的结果。
这是个令人惊叹的成就,但是它也有局限性。软件是非常机械的,它只能理解大部分网页的部分内容。搜索引擎爬行器分析网页的原始HTML形式。使用浏览器查看页面的源代码,你就能看到这种形式。
图2-14和图2-15说明了在Firefox和Internet Explorer中查看源代码的方法,分别是Tools→Web Developer→Page Source和Page→View Source.
你在源代码中可以看到Web服务器发给浏览器的实际网页代码。这也是搜索引擎爬行器所看到的(搜索引擎还会看到页面的HTTP头信息)。在分析网页上的用户可见内容时,搜索引擎多半会忽略与导航和页面显示相关的代码,例如,在图2-16中看到的那些,因为这些代码与网页的内容无关。
搜索引擎爬行器最感兴趣的是页面上的HTML文本。图2-17是网页HTML文本的一个例子(以SEOmoz.org首页为例)。
尽管图2-17仍然显示了一些HTML编码,但是你可以在代码中清晰地看到"常规"文本。这是爬行器所寻求的独特内容。
此外,搜索引擎还读取其他一些内容。其中之一是页面标题。页面标题是网页排名最重要的因素之一,它就是显示在浏览器标题栏(在浏览器菜单和地址栏之上)的文本。
图2-18展示了爬行器看到的代码,以Trip Advisor(http://www.tripadvisor.com)为例。
图2-18中的第一个圆圈标出的是标题标记。标题标记常用作搜索引擎结果中列出的标题。例如,图2-19展示了搜索"bank loans"的结果,注意,搜索标题中列出的Citibank和Capital One分别和首页的标题相同。