如何辨别搜索引擎机器人身份
在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。
首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:
google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com
MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com
Yahoo!:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com
最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。
现在,如果你发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。
文章作者:新竞争力 文章来源:www.jingzhengli.cn 加入时间:2007/1/17
本文相关内容: