【转载】搜索引擎如何对付“暗网”

【转载】搜索引擎如何对付“暗网”
　　
　　网海无边，回头是岸。
　　
　　摆在搜索引擎面前的难题很多，剪不断，理还乱，但有一个怎么绕也绕不开——暗网（hidden web）。互联网上每天都在诞生无穷无尽的新信息，这些信息存在的方式也无穷无尽——文字、声音、图像、交互数据，或者别的。
　　
　　面对信息存在状态的多元化，内容的海量化，人类很焦虑，总想探求冰山底下不为人知的世界，这便是技术的伟大之处。
　　
　　近来，由于百度“阿拉丁”的热炒，“暗网”问题又一次被大家关注。业内人士也由此陷入一个误区，实际上，早在1994年，Jill Ellsworth就开始提到“invisible Web”这个词，“暗网”自搜索引擎诞生的那一天起，就一直是个问题，恐怕也终将得不到100%的解决。
　　
　　“暗网”有多暗？
　　
　　既然是“暗网”，到底它有多大的容量，很难有一个明确的数字。有人说，现在可搜索的网页占到了37%；有人说有100亿个不重复的表单；还有人说是浅层www资源的500倍。争论这个问题意义不大，对比浅层www（即Surface Web，静态页面、超链接、文件），让我们来看看BrightPlanet公司之前发布的一个技术白皮书（《The Deep Web-Surfacing the Hidden Value》）的结论：
　　
　　1、Deep Web包含7500TB的信息，而Surface Web包含的信息容量只有19TB。
　　2、Deep Web包含5500亿独立文档，想对应的Surface Web只包含10亿个。
　　3、现有的Deep Web站点估计超过100000个。
　　4、60个最大Deep Web站点就已包含750TB信息，超过Surface Web所包含信息的40倍。
　　5、平均看，Deep Web站点的月访问量比Surface Web站点高出50％，并且与Surface Web站点相比有更多的链接。可是那些典型的大型Deep Web站点在互联网搜索领域却不知名。
　　6、Deep Web是互联网新信息增长的最大来源。
　　7、Deep Web站点在信息内容范围上比一般Surface Web站点更专更深。
　　8、Deep Web包含的有效高质内容总量至少是Surface Web的1000到2000倍。
　　9、超过一半的Deep Web内容都保存在专业领域的数据库中。
　　10、95％的Deep Web信息都是面向公共访问的，而不是需要付费或者订阅的。
　　
　　简单的说，“暗网”比你想象中的还要庞大，还要未知，但它们的应用却比你想象中的要多。因此，我们可以得到一个结论——尽管网海无边，但探索“暗网”对人类更从容地把握信息是极有意义的。
　　
　　目前主流的应对策略
　　
　　之前我曾留意到陈佼的一篇针对“阿拉丁”的文章（深入解析百度“阿拉丁”平台），其中提到了搜索引擎对“暗网”的应对策略。实际上，针对暗网的策略非常复杂，简直可以发展多个交叉学科来研究，举个简单的例子，微软亚洲研究院一直在研究关于声音信息的处理和检索，这项研究耗时多年，一直未有突破性进展，即便如此，它也只是对付“暗网”的一小部分。
　　
　　饭要一口一口的吃。在我看来，当前要解决的所谓“暗网”，主要是针对的是Dynamic content（动态内容），这也是各大搜索引擎现在工作的重中之重。对此，主要有两大策略——主动策略和被动策略。
　　
　　这就好比有一座未知的宝藏，现在想要得到它，一种方法是拿着藏宝图，将其找到，发掘出来，这就是所谓“主动”；另一种方法是让宝藏“自己显露出来”，等待开发。
　　
　　主动策略：优化数据分析，优化算法，从堡垒的外部攻破。
　　
　　Google的Jayant Madhavan在VLDB 2008会议上作了题为“Google’s Deep-Web Crawl”的报告，其中详细阐述了Google的一些策略，其核心就是信息模板（informative templates）。其实理解起来很简单，可以叫做“混水摸鱼”，多摸几次，反复总结，就能最大限度接近于知道摸到的是鱼还是石块。
　　
　　2008奥运期间，百度也曾经针对大量相关关键词进行处理优化，整合各种状态的内容信息，取得了很好的效果。
　　
　　被动策略：让网站方参与到“暗网”的显现中来，主动“洗白”。
　　
　　这是一种迂回的策略。陈佼在博文中提到的One box、Subscribed Link、Search Monkey等都属于这种，它是通过开放的API允许用户主动将结构化的数据提交上来。百度公布的搜索开放平台（http://open.baidu.com ）也是其中的先驱之一。
　　
　　这种策略很讨巧，但它不仅是个单纯的技术问题，更是个博弈问题。据我所知，韩国的很多互联网公司都拒绝google的爬虫，很多报纸网站也对google的抓取深恶痛绝，并别提主动协助了。
　　
　　对比解析搜索巨头应对“暗网”的策略
　　
　　在做对比解析之前，有一点我想表达：在应对“暗网”方面，世界各地的搜索引擎几乎是同时起步的，或许走的路子有一些差异，但殊途同归，这一点尤其值得肯定。
　　
　　 Google：霸道而独断
　　
　　如果你仔细解读一下Google’s Deep-Web Crawl报告就会明白，Google依然以其引以为傲的算法来针对“暗网”，已经出来的产品如onebox、Subscribed Links，乃至Google base等。
　　
　　 Google很懂技术，但树大招风，如果不懂得平衡各方利益，天才容易寡助。比如Google base这个产品，架子很大，但生态链太短，目前的发展看来并不乐观。我倒是建议Google考虑收购一下现在正火的Wolfram Alpha，从本质上来说，这也是一个对付“暗网”的产品。
　　
　　 Yahoo：简单的事情复杂化
　　 Search Monkey是Yahoo对付“暗网”的拳头，很开放，很自由，很有颠覆感，但与Google习惯用技术眼光来解决问题一样，Yahoo要面对的是无序和混乱的可能。
　　
　　之前与业内朋友交流，大家有一个共识，Yahoo是一家非常强悍的公司，拥有无数天才，但它常常将简单的问题复杂化，造成失控。在Search Monkey中，Yahoo开放了图片、视频、游戏等大量内容，展现的权限都交给用户决定，也是基于这一思维。
　　
　　百度：聪明而谨慎
　　
　　百度的搜索开放平台很有意思，它有3个非常突出的特点：
　　
　　其一，开放却又限制。思维上是开放的，面向的也是所有的网站，但在数据内容和网站的资质上，它又有严格的审核，以保证搜索体验。
　　
　　在哲学中有一句话说：自由不是绝对的，而是相对的。百度的中庸在搜索开放平台上反映得淋漓尽致。
　　
　　其二，注重利益的均衡。和Google、Yahoo不同，百度的策略注重生态平衡——搜索引擎、网站、用户。它的机制是：百度为用户提供更好的搜索体验，把控资源，让更优质的网站内容得到展现，而网站从中攫取品牌价值和流量的提升。
　　
　　其三，谨慎对待一切。我和一些站长就搜索开放平台进行过交流，在提交审核的数据中，百度偏好“确定性信息”和“数字性信息”，而对一些模棱两可、非确定性文字信息几乎都拒之门外，从中可以看出百度搜索开放平台的谨慎。
　　
　　三大巨头都是将搜索引擎从“可读”变为“可写”，但不同的思维方式决定了不同的处理方式。不管如何，在应对“暗网”的战争中，信息的使用者才是最大的赢家。
　　
　　最后送一句话给致力于突破“暗网”的搜索业界朋友们：人类若能妥善地搜寻资料，实在已经改变世界了。与大家共勉。