搜索引擎

北京时间3月31日消息，DuckDuckGo搜索引擎近来发展迅猛，3个月来搜索请求以平均每天227％的速度高速增长。虽然现在它尚不能撼动Google搜索霸主地位，但谷歌亦也应该提起重视。报道称，不少国外企业家在其个人电脑上使用的是另类的搜索引擎DuckDuckGo，而不是谷歌或者Bing。另外据ycombinator报道称，使用这个搜索引擎的人也不是一个两个。从下面的图表中可以看出，到今年为止，DuckDuckGo每天的搜索量如同曲棍球球棍一样快速增长，平均每天搜索请求增速达227％。自去年年底到现在为止，用户数已接近150万。这巨大的上升势头，一方面是来自去年一月推动的视觉界面设计，另一方面也是数据隐私日活动的鞭策。正是因为DuckDuckGo对数据隐私的保护，黑客甚至都集体使用它。因此有人提出建议，谷歌应该对此感到重视。不过分析人士指出，DuckDuckGo目前对谷歌而言还不是最大的威胁，谷歌现在还没精力关注它，这对DuckDuckGo来说无异是一件好事。就目前许多人而言，DuckDuckGo已经被定位成一个有友好隐私保护的搜索引擎。因此它不会在众多竞争中被淘汰掉，也更不用说非要和其他的搜索引擎一决高下，因为DuckDuckgo推动发展方向和战略是对的。此外在早些访谈中，DuckDuckGo创始人Gabriel Weinberg称，目前的工作重点将是对搜索算法进行改进和加快相应速度。据悉DuckDuckGo是一个综合性搜索引擎，它索引的搜索结果包括了Google、Bing、维基百科、亚马逊等。另外DuckDuckGo把隐私放在第一位，它不存储用户IP地址、也不记录用户信息，同时DuckDuckGo搜索结果更加实时化，Spam也更少。http://duckduckgo.com/

需要包含以下基本功能：（1）网站下载流速控制国内国外的搜索爬虫，科研机构爬虫数量很多，不同的站点抗抓取能力大相径庭，对网站的下载做好控制，避免将网站抓死。（2）网页抓全将互联网网页抓全，是极大的挑战，暗网暂且不提，就是明网抓全也不是容易的事情，新站发现，sitemap协议等用站长主动提交的支持等等。（3）网页抓新（更新及时性）网页总在不断变化中，如何当网页变化后（更新，消亡）能够及时更新，实时性和死链率等是表征这方面工作的重要指标。（4）网页重复抓取的避免为了及时捕捉网页的更新，对同一个网址必须经常去抓取，同样网络是一个网状结构，同一个网址可能被多次引用，这些都导致重复抓取的可能性，如果避免网页抓重，同时控制合理的更新频率，是非常关键的。（5）DNS自动解析如果抓取每个网页都进行一次DNS解析，那成本就太大了，维护一个DNS自动解析系统，可以大大降低域名服务器的负担，且大大提高效率。（6）镜像站点的识别网页内容相同，但域名不同的情况比比皆是，其中镜像站点的识别尤为关键（7）抓取的优先级调整抓取队列总是满的，周而复始，但在抓取的时候会出现，重要的，紧急的，不重要的，不紧急的内容，如何处理好排队的关系尤为重要，是单独开辟绿色通道，还是将其排队号前提都是需要细心打磨的。（8）抓取深度控制链接展开的深度控制，避免出现单个站点过分抓取，而使得其他站点持续饥饿（9）多爬虫的协作爬虫间的通行量要尽可能少，爬虫出现故障后的自动恢复，抓取主机的异地化等等，据说百度在国外部署的爬虫来抓取国外的站点。（10）网页下载的存储网页下载后的本地存储，链接提取，锚文本，链接关系的存储等等。（11）死链、跳转的识别和处理在抓取网页失败后，判断是死链还是当机，错误下载的网址再次抓取的时间间隔的控制，redirect的网页收集等等。考核标准（1）总有效的网页数（单机）（2）新站发现数（单机）（3）无效抓取的网页数（单机）（4）镜像站点数（单机）（5）全网站点的基本信息（更新周期，死链率，错误率）（6）重要网页的抓取及时性（随机抽取盲测）（7）抓取稳定性，故障率等

www.completeplanet.com 隐匿查询数据库里存储的大量的信息对标准的搜索引擎来说是不可见的，标准的搜索引擎只是索引网站上的内容，从一个链接到另一个链接。隐匿搜索引擎专门用来搜索被称作Deep Web上的隐藏数据。 * 能查找动态数据库。 * 能在一定数据范围内查询。 * 有很好的帮助文档。

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，那么搜索机器人就沿着链接抓取。 robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。 robots.txt写法我们来看一个robots.txt范例：http://www.w3.org/robots.txt 访问以上具体地址，我们可以看到robots.txt的具体内容如下： # # robots.txt for http://www.w3.org/ # # $Id: robots.txt,v 1.48 2007/10/16 05:31:15 gerald Exp $ # # For use by search.w3.org User-agent: W3C-gsa Disallow: /Out-Of-Date User-agent: W3T_SE Disallow: /Out-Of-Date User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot) Disallow: / # W3C Link checker User-agent: W3C-checklink Disallow: # exclude some access-controlled areas User-agent: * Disallow: /2004/ontaria/basic Disallow: /Team Disallow: /Project Disallow: /Web

搜索引擎

搜索引擎duckduckgo

搜索引擎爬虫的基本需求和考核标准

CompletePlanet (动态数据库-搜索引擎)

robots.txt