动态网页怎样才能被搜索引擎收录?
不过这并不意味着只要是静态网页就一定会被搜索引擎收录,而动态网页就一定不会被搜索引擎收录,实际上搜索引擎收录了大量的动态网页信息,那么这些动态网页怎样才能被搜索引擎收录呢?其实动态网页被搜索引擎收录和静态网页被收录的原理是一样的,只是因为两种网页表现形式的差异造成了搜索引擎索引这些文件的方式有所不同,动态网页只有通过链接关系被搜索引擎蜘蛛发现才可能被收录。我们知道,google、百度等技术性搜索引擎(通常被称为第二代搜索引擎)是基于超级链接检索的,搜索引擎是否收录一个网页,主要取决于是否有一个网页(已经被搜索引擎收录的网页)链接了那个新的、尚未被收录的动态网页网址。如果一个动态网页信息发布到服务器之后,没有任何一个网站/网页给出链接,那么这个动态网页几乎是无法被搜索引擎检索到的。
我们可以举一个动态网页被搜索引擎收录过程的例子。当当网上书店的产品详细介绍页面都是典型的动态网页,这么一个拥有庞大数据量的网站完全采用静态网页是不现实的,但大量的动态网页并不容易被搜索引擎收录。2004年10月份,我的新书《网络营销基础与实践》第二版由清华大学出版社出版,并且在当当网上进行网上销售,该书在当当网上书店详细介绍页面的网址是:
http://www.dangdang.com/product_detail/product_detail.asp?product_id=8915738
在当当网上,每个产品介绍页面都有一个类似的URL,这就是一个典型的动态网页URL形式。但这个动态网页并不容易被搜索引擎收录,除非其上级网页(产品目录列表)已经被搜索引擎收录,并且当搜索引擎spider来抓取信息时,上述产品页面的链接正好在该产品目录页面上。我们可以用这个实事来验证这一点。在google上用“《网络营销基础与实践》第二版”作为关键词进行检索时,在搜索结果页面中有一条记录是当当网的产品介绍,不过URL与上面列出的有一点差别:
http://www.dangdang.com/product_detail/product_detail.asp?product_id=8915738&from=P-1017102
即后面多了一个&from=P-1017102,为什么出现这种状况呢?原因在于,当时我在网上营销新观察的首页为《网络营销基础与实践》第二版的网上销售地址做了一个链接,URL为
http://www.dangdang.com/product_detail/product_detail.asp?product_id=8915738&from=P-1017102,其中后面的&from=P-1017102是我的当当联盟会员跟踪号,这是我自己加上去的,表明用户点击这个URL是来自于网上营销新观察网站。结果发现,google收录了当当网上《网络营销基础与实践》第二版详细介绍网页,只不过获得这个网页URL来源的是通过网上营销新观察的推荐而不是当当网的产品列表页面。尽管当当网的产品列表页面比网上营销新观察首页更早列出这个产品及其链接URL,但首次被搜索引擎发现的链接并不是来自当当网。
如果认真观察,可以发现这些类似的情况很多。比如一个新的网站,被一个A网站链接2星期了仍然没有被搜索引擎收录,而这个新网站被一个大型网站(比如搜狐分类目录或者其他大型网站)刚刚收录不久即出现在google的索引库中,这就说明搜狐分类目录上的链接比那个A网站具有更好的推荐效果,因而比较容易被其他搜索引擎通过链接关系收录。
其实,静态网页也是同样的道理,如果新发布的网页信息没有被任何一个被搜索引擎已经收录的网页所链接,即使网页是静态形式也不能被搜索引擎收录。既然如此,为什么说静态网页比动态网易容易增加搜索引擎的收录机会呢?其实还是由于网页之间的超级链接关系所决定的。在动态网页之间建立的链接关系,如同每个静态网页本身一样,都是固定存在的, 这样搜索引擎检索就很容易通过逐级链接收录所有相关网页,而动态网页内容中的链接关系这样的机会就比较少了,除非这个动态网页已经被搜索引擎收录,其中链接的其他网页才可能被收录。
通过当当网上《网络营销基础与实践》第二版详细介绍网页被google收录的例子,也带给我们一个启发,对于动态网页,如果希望被搜索引擎收录,就需要增加该网页URL被链接的机会,这种链接不仅可以是在自己的网站上,也可以是在其他网站上。这实际上也就是增加动态网页搜索引擎可见性(动态网页搜索引擎优化)的常见方法之一,当然,对于动态网页的优化还有其他一些方式,在谈到有关问题时再做相应的介绍。