北京时间3月31日消息,DuckDuckGo搜索引擎近来发展迅猛,3个月来搜索请求以平均每天227%的速度高速增长。虽然现在它尚不能撼动Google搜索霸主地位,但谷歌亦也应该提起重视。
报道称,不少国外企业家在其个人电脑上使用的是另类的搜索引擎DuckDuckGo,而不是谷歌或者Bing。另外据ycombinator报道称,使用这个搜索引擎的人也不是一个两个。
从下面的图表中可以看出,到今年为止,DuckDuckGo每天的搜索量如同曲棍球球棍一样快速增长,平均每天搜索请求增速达227%。自去年年底到现在为止,用户数已接近150万。
这巨大的上升势头,一方面是来自去年一月推动的视觉界面设计,另一方面也是数据隐私日活动的鞭策。正是因为DuckDuckGo对数据隐私的保护,黑客甚至都集体使用它。
因此有人提出建议,谷歌应该对此感到重视。不过分析人士指出,DuckDuckGo目前对谷歌而言还不是最大的威胁,谷歌现在还没精力关注它,这对DuckDuckGo来说无异是一件好事。
就目前许多人而言,DuckDuckGo已经被定位成一个有友好隐私保护的搜索引擎。因此它不会在众多竞争中被淘汰掉,也更不用说非要和其他的搜索引擎一决高下,因为DuckDuckgo推动发展方向和战略是对的。
此外在早些访谈中,DuckDuckGo创始人Gabriel Weinberg称,目前的工作重点将是对搜索算法进行改进和加快相应速度。
据悉DuckDuckGo是一个综合性搜索引擎,它索引的搜索结果包括了Google、Bing、维基百科、亚马逊等。另外DuckDuckGo把隐私放在第一位,它不存储用户IP地址、也不记录用户信息,同时DuckDuckGo搜索结果更加实时化,Spam也更少。http://duckduckgo.com/
需要包含以下基本功能:
(1)网站下载流速控制
国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。
(2)网页抓全
将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。
(3)网页抓新(更新及时性)
网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。
(4)网页重复抓取的避免
为了及时捕捉网页的更新,对同一个网址必须经常去抓取,同样网络是一个网状结构,同一个网址可能被多次引用,这些都导致重复抓取的可能性,如果避免网页抓重,同时控制合理的更新频率,是非常关键的。
(5)DNS自动解析
如果抓取每个网页都进行一次DNS解析,那成本就太大了,维护一个DNS自动解析系统,可以大大降低域名服务器的负担,且大大提高效率。
(6)镜像站点的识别
网页内容相同,但域名不同的情况比比皆是,其中镜像站点的识别尤为关键
(7)抓取的优先级调整
抓取队列总是满的,周而复始,但在抓取的时候会出现,重要的,紧急的,不重要的,不紧急的内容,如何处理好排队的关系尤为重要,是单独开辟绿色通道,还是将其排队号前提都是需要细心打磨的。
(8)抓取深度控制
链接展开的深度控制,避免出现单个站点过分抓取,而使得其他站点持续饥饿
(9)多爬虫的协作
爬虫间的通行量要尽可能少,爬虫出现故障后的自动恢复,抓取主机的异地化等等,据说百度在国外部署的爬虫来抓取国外的站点。
(10)网页下载的存储
网页下载后的本地存储,链接提取,锚文本,链接关系的存储等等。
(11)死链、跳转的识别和处理
在抓取网页失败后,判断是死链还是当机,错误下载的网址再次抓取的时间间隔的控制,redirect的网页收集等等。
考核标准
(1)总有效的网页数(单机)
(2)新站发现数(单机)
(3)无效抓取的网页数(单机)
(4)镜像站点数(单机)
(5)全网站点的基本信息(更新周期,死链率,错误率)
(6)重要网页的抓取及时性(随机抽取盲测)
(7)抓取稳定性,故障率等
www.completeplanet.com 隐匿查询
数据库里存储的大量的信息对标准的搜索引擎来说是不可见的,标准的搜索引擎只是索引网站上的内容,从一个链接到另一个链接。 隐匿搜索引擎专门用来搜索被称作Deep Web上的隐藏数据。
* 能查找动态数据库。 * 能在一定数据范围内查询。 * 有很好的帮助文档。
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
robots.txt写法
我们来看一个robots.txt范例:http://www.w3.org/robots.txt
访问以上具体地址,我们可以看到robots.txt的具体内容如下:
#
# robots.txt for http://www.w3.org/
#
# $Id: robots.txt,v 1.48 2007/10/16 05:31:15 gerald Exp $
#
# For use by search.w3.org
User-agent: W3C-gsa
Disallow: /Out-Of-Date
User-agent: W3T_SE
Disallow: /Out-Of-Date
User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /
# W3C Link checker
User-agent: W3C-checklink
Disallow:
# exclude some access-controlled areas
User-agent: *
Disallow: /2004/ontaria/basic
Disallow: /Team
Disallow: /Project
Disallow: /Web