搜索引擎

搜索引擎duckduckgo

北京时间3月31日消息,DuckDuckGo搜索引擎近来发展迅猛,3个月来搜索请求以平均每天227%的速度高速增长。虽然现在它尚不能撼动Google搜索霸主地位,但谷歌亦也应该提起重视。 报道称,不少国外企业家在其个人电脑上使用的是另类的搜索引擎DuckDuckGo,而不是谷歌或者Bing。另外据ycombinator报道称,使用这个搜索引擎的人也不是一个两个。 从下面的图表中可以看出,到今年为止,DuckDuckGo每天的搜索量如同曲棍球球棍一样快速增长,平均每天搜索请求增速达227%。自去年年底到现在为止,用户数已接近150万。 这巨大的上升势头,一方面是来自去年一月推动的视觉界面设计,另一方面也是数据隐私日活动的鞭策。正是因为DuckDuckGo对数据隐私的保护,黑客甚至都集体使用它。 因此有人提出建议,谷歌应该对此感到重视。不过分析人士指出,DuckDuckGo目前对谷歌而言还不是最大的威胁,谷歌现在还没精力关注它,这对DuckDuckGo来说无异是一件好事。 就目前许多人而言,DuckDuckGo已经被定位成一个有友好隐私保护的搜索引擎。因此它不会在众多竞争中被淘汰掉,也更不用说非要和其他的搜索引擎一决高下,因为DuckDuckgo推动发展方向和战略是对的。 此外在早些访谈中,DuckDuckGo创始人Gabriel Weinberg称,目前的工作重点将是对搜索算法进行改进和加快相应速度。 据悉DuckDuckGo是一个综合性搜索引擎,它索引的搜索结果包括了Google、Bing、维基百科、亚马逊等。另外DuckDuckGo把隐私放在第一位,它不存储用户IP地址、也不记录用户信息,同时DuckDuckGo搜索结果更加实时化,Spam也更少。http://duckduckgo.com/

搜索引擎爬虫的基本需求和考核标准

需要包含以下基本功能: (1)网站下载流速控制 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。 (2)网页抓全 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。 (3)网页抓新(更新及时性) 网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。 (4)网页重复抓取的避免 为了及时捕捉网页的更新,对同一个网址必须经常去抓取,同样网络是一个网状结构,同一个网址可能被多次引用,这些都导致重复抓取的可能性,如果避免网页抓重,同时控制合理的更新频率,是非常关键的。 (5)DNS自动解析 如果抓取每个网页都进行一次DNS解析,那成本就太大了,维护一个DNS自动解析系统,可以大大降低域名服务器的负担,且大大提高效率。 (6)镜像站点的识别 网页内容相同,但域名不同的情况比比皆是,其中镜像站点的识别尤为关键 (7)抓取的优先级调整 抓取队列总是满的,周而复始,但在抓取的时候会出现,重要的,紧急的,不重要的,不紧急的内容,如何处理好排队的关系尤为重要,是单独开辟绿色通道,还是将其排队号前提都是需要细心打磨的。 (8)抓取深度控制 链接展开的深度控制,避免出现单个站点过分抓取,而使得其他站点持续饥饿 (9)多爬虫的协作 爬虫间的通行量要尽可能少,爬虫出现故障后的自动恢复,抓取主机的异地化等等,据说百度在国外部署的爬虫来抓取国外的站点。 (10)网页下载的存储 网页下载后的本地存储,链接提取,锚文本,链接关系的存储等等。 (11)死链、跳转的识别和处理 在抓取网页失败后,判断是死链还是当机,错误下载的网址再次抓取的时间间隔的控制,redirect的网页收集等等。 考核标准 (1)总有效的网页数(单机) (2)新站发现数(单机) (3)无效抓取的网页数(单机) (4)镜像站点数(单机) (5)全网站点的基本信息(更新周期,死链率,错误率) (6)重要网页的抓取及时性(随机抽取盲测) (7)抓取稳定性,故障率等

CompletePlanet (动态数据库-搜索引擎)

www.completeplanet.com 隐匿查询 数据库里存储的大量的信息对标准的搜索引擎来说是不可见的,标准的搜索引擎只是索引网站上的内容,从一个链接到另一个链接。 隐匿搜索引擎专门用来搜索被称作Deep Web上的隐藏数据。 * 能查找动态数据库。 * 能在一定数据范围内查询。 * 有很好的帮助文档。

robots.txt

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。 robots.txt写法 我们来看一个robots.txt范例:http://www.w3.org/robots.txt 访问以上具体地址,我们可以看到robots.txt的具体内容如下: # # robots.txt for http://www.w3.org/ # # $Id: robots.txt,v 1.48 2007/10/16 05:31:15 gerald Exp $ # # For use by search.w3.org User-agent: W3C-gsa Disallow: /Out-Of-Date User-agent: W3T_SE Disallow: /Out-Of-Date User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot) Disallow: / # W3C Link checker User-agent: W3C-checklink Disallow: # exclude some access-controlled areas User-agent: * Disallow: /2004/ontaria/basic Disallow: /Team Disallow: /Project Disallow: /Web