智能搜索技术

【转载】搜索引擎如何对付“暗网” 网海无边，回头是岸。摆在搜索引擎面前的难题很多，剪不断，理还乱，但有一个怎么绕也绕不开——暗网（hidden web）。互联网上每天都在诞生无穷无尽的新信息，这些信息存在的方式也无穷无尽——文字、声音、图像、交互数据，或者别的。面对信息存在状态的多元化，内容的海量化，人类很焦虑，总想探求冰山底下不为人知的世界，这便是技术的伟大之处。近来，由于百度“阿拉丁”的热炒，“暗网”问题又一次被大家关注。业内人士也由此陷入一个误区，实际上，早在1994年，Jill Ellsworth就开始提到“invisible Web”这个词，“暗网”自搜索引擎诞生的那一天起，就一直是个问题，恐怕也终将得不到100%的解决。 “暗网”有多暗？既然是“暗网”，到底它有多大的容量，很难有一个明确的数字。有人说，现在可搜索的网页占到了37%；有人说有100亿个不重复的表单；还有人说是浅层www资源的500倍。争论这个问题意义不大，对比浅层www（即Surface Web，静态页面、超链接、文件），让我们来看看BrightPlanet公司之前发布的一个技术白皮书（《The Deep Web-Surfacing the Hidden Value》）的结论： 1、Deep Web包含7500TB的信息，而Surface Web包含的信息容量只有19TB。 2、Deep Web包含5500亿独立文档，想对应的Surface Web只包含10亿个。 3、现有的Deep Web站点估计超过100000个。 4、60个最大Deep Web站点就已包含750TB信息，超过Surface Web所包含信息的40倍。 5、平均看，Deep Web站点的月访问量比Surface Web站点高出50％，并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。 6、Deep Web是互联网新信息增长的最大来源。 7、Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。 8、Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。 9、超过一半的Deep Web内容都保存在专业领域的数据库中。 10、95％的Deep Web信息都是面向公共访问的，而不是需要付费或者订阅的。简单的说，“暗网”比你想象中的还要庞大，还要未知，但它们的应用却比你想象中的要多。因此，我们可以得到一个结论——尽管网海无边，但探索“暗网”对人类更从容地把握信息是极有意义的。目前主流的应对策略之前我曾留意到陈佼的一篇针对“阿拉丁”的文章（深入解析百度“阿拉丁”平台），其中提到了搜索引擎对“暗网”的应对策略。实际上，针对暗网的策略非常复杂，简直可以发展多个交叉学科来研究，举个简单的例子，微软亚洲研究院一直在研究关于声音信息的处理和检索，这项研究耗时多年，一直未有突破性进展，即便如此，它也只是对付“暗网”的一小部分。饭要一口一口的吃。在我看来，当前要解决的所谓“暗网”，主要是针对的是Dynamic content（动态内容），这也是各大搜索引擎现在工作的重中之重。对此，主要有两大策略——主动策略和被动策略。这就好比有一座未知的宝藏，现在想要得到它，一种方法是拿着藏宝图，将其找到，发掘出来，这就是所谓“主动”；另一种方法是让宝藏“自己显露出来”，等待开发。主动策略：优化数据分析，优化算法，从堡垒的外部攻破。 Google的Jayant Madhavan在VLDB 2008会议上作了题为“Google’s Deep-Web Crawl”的报告，其中详细阐述了Google的一些策略，其核心就是信息模板（informative templates）。其实理解起来很简单，可以叫做“混水摸鱼”，多摸几次，反复总结，就能最大限度接近于知道摸到的是鱼还是石块。 2008奥运期间，百度也曾经针对大量相关关键词进行处理优化，整合各种状态的内容信息，取得了很好的效果。被动策略：让网站方参与到“暗网”的显现中来，主动“洗白”。这是一种迂回的策略。陈佼在博文中提到的One box、Subscribed Link、Search Monkey等都属于这种，它是通过开放的API允许用户主动将结构化的数据提交上来。百度公布的搜索开放平台（http://open.baidu.com ）也是其中的先驱之一。这种策略很讨巧，但它不仅是个单纯的技术问题，更是个博弈问题。据我所知，韩国的很多互联网公司都拒绝google的爬虫，很多报纸网站也对google的抓取深恶痛绝，并别提主动协助了。对比解析搜索巨头应对“暗网”的策略在做对比解析之前，有一点我想表达：在应对“暗网”方面，世界各地的搜索引擎几乎是同时起步的，或许走的路子有一些差异，但殊途同归，这一点尤其值得肯定。 Google：霸道而独断如果你仔细解读一下Google’s Deep-Web Crawl报告就会明白，Google依然以其引以为傲的算法来针对“暗网”，已经出来的产品如onebox、Subscribed Links，乃至Google base等。

Deep Web Research 2005 By Marcus P. Zillman Marcus P. Zillman, M.S., A.M.H.A., is Executive Director of the Virtual Private Library and Founder/Creator of BotSpot? He is the author of nine different Internet MiniGuides 2005, Internet Sources Manual and eCurrent Awareness Resources 2005 Report. His Subject Tracer?Information Blogs (41 and constantly growing) are freely available from the Virtual Private Library, which include the latest resources on Deep Web Research and Bot Research.

Deep Web Most writers these days do a significant part of their research using the World Wide Web, with the help of powerful search engines such as Google and Yahoo. There is so much information available that one could be forgiven for thinking that “everything”is accessible this way, but nothing could ber further from the truth. For example, as of August 2005, Google claimed to have indexed 8.2 billion Web pages and 2.